diff --git a/README.md b/README.md index 944e2f9..47006a0 100644 --- a/README.md +++ b/README.md @@ -1,12 +1,15 @@ # Presidio-research -This package features data-science related tasks for developing new recognizers for [Presidio](https://github.com/microsoft/presidio). + +This package features data-science related tasks for developing new recognizers for [Presidio](https://github.com/microsoft/presidio). It is used for the evaluation of the entire system, as well as for evaluating specific PII recognizers or PII detection models ## Who should use it? + - Anyone interested in **developing or evaluating a PII detection model**, an existing Presidio instance or a Presidio PII recognizer. - Anyone interested in **generating new data based on previous datasets** or sentence templates (e.g. to increase the coverage of entity values) for Named Entity Recognition models. ## Getting started + To install the package, clone the repo and install all dependencies, preferably in a virtual environment: ``` sh @@ -24,28 +27,27 @@ python -m spacy download en_core_web_lg # Verify installation pytest ``` -Note that some dependencies (such as Flair) are not installed to reduce installation complexity. +Note that some dependencies (such as Flair) are not installed to reduce installation complexity. ## What's in this package? -1. **Data generator** for PII recognizers and NER models +1. **Fake data generator** for PII recognizers and NER models 2. **Data representation layer** for data generation, modeling and analysis 3. Multiple **Model/Recognizer evaluation** files (e.g. for Spacy, Flair, CRF, Presidio API, Presidio Analyzer python package, specific Presidio recognizers) 4. **Training and modeling code** for multiple models -4. Helper functions for **results analysis** - - +5. Helper functions for **results analysis** ## 1. Data generation + See [Data Generator README](presidio_evaluator/data_generator/README.md) for more details. -The data generation process receives a file with templates, e.g. `My name is [FIRST_NAME]` and a data frame with fake PII data. +The data generation process receives a file with templates, e.g. `My name is [FIRST_NAME]` and a data frame with fake PII data. Then, it creates new synthetic sentences by sampling templates and PII values. Furthermore, it tokenizes the data, creates tags (either IO/IOB/BILOU) and spans for the newly created samples. - For information on data generation/augmentation, see the data generator [README](presidio_evaluator/data_generator/README.md). -- For an example for running the generation process, see [this notebook](notebooks/data%20generation/Generate%20data.ipynb). +- For an example for running the generation process, see [this notebook](notebooks/data%20generation/Generate%20data.ipynb). - For an understanding of the underlying fake PII data used, see this [exploratory data analysis notebook](notebooks/PII%20EDA.ipynb). Note that the generation process might not work off-the-shelf as we are not sharing the fake PII datasets and templates used in this analysis, do to copyright and other restrictions. @@ -57,11 +59,12 @@ Once data is generated, it could be split into train/test/validation sets while In order to standardize the process, we use specific data objects that hold all the information needed for generating, analyzing, modeling and evaluating data and models. Specifically, see [data_objects.py](presidio_evaluator/data_objects.py). ## 3. Recognizer evaluation + The presidio-evaluator framework allows you to evaluate Presidio as a system, or a specific PII recognizer for precision and recall. The main logic lies in the [Evaluator](presidio_evaluator/evaluation/evaluator.py) class. It provides a structured way of evaluating models and recognizers. - ### Ready model / engine wrappers + Some evaluators were developed for analysis and references. These include: #### Presidio analyzer evaluation @@ -69,28 +72,34 @@ Some evaluators were developed for analysis and references. These include: Allows you to evaluate an existing Presidio instance. [See this notebook for details](notebooks/Evaluate%20Presidio%20Analyzer.ipynb). #### One recognizer evaluation -Evaluate one specific recognizer for precision and recall. + +Evaluate one specific recognizer for precision and recall. Similar to the analyzer evaluation just focusing on one type of PII recognizer. See [presidio_recognizer_wrapper.py](presidio_evaluator/models/presidio_recognizer_wrapper.py) #### Conditional Random Fields -To train a CRF on a new dataset, see [this notebook](notebooks/models/CRF.ipynb). -To evaluate a CRF model, see the the [same notebook](notebooks/models/CRF.ipynb) or [this class](presidio_evaluator/models/crf_model.py). + +To train a CRF on a new dataset, see [this notebook](notebooks/models/Train CRF.ipynb). +To evaluate a CRF model, see the the [same notebook](notebooks/models/Train CRF.ipynb) or [this class](presidio_evaluator/models/crf_model.py). #### spaCy based models -There are three ways of interacting with spaCy models: + +There are three ways of interacting with spaCy models: + 1. Evaluate an existing trained model 2. Train with pretrained embeddings 3. Fine tune an existing spaCy model -Before interacting with spaCy models, the data needs to be adapted to fit spaCy's API. +Before interacting with spaCy models, the data needs to be adapted to fit spaCy's API. See [this notebook for creating spaCy datasets](notebooks/models/Create%20datasets%20for%20Spacy%20training.ipynb). ##### Evaluate an existing spaCy model + To evaluate spaCy based models, see [this notebook](notebooks/models/Evaluate%20spacy%20models.ipynb). #### Flair based models -To train a new model, see the [FlairTrainer](https://github.com/microsoft/presidio-research/blob/master/models/flair_train.py) object. + +To train a new model, see the [FlairTrainer](https://github.com/microsoft/presidio-research/blob/master/models/flair_train.py) object. For experimenting with other embedding types, change the `embeddings` object in the `train` method. To train a Flair model, run: @@ -110,6 +119,7 @@ trainer.train(corpus) To evaluate an existing model, see [this notebook](notebooks/models/Evaluate%20flair%20models.ipynb). # For more information + - [Blog post on NLP approaches to data anonymization](https://towardsdatascience.com/nlp-approaches-to-data-anonymization-1fb5bde6b929) - [Conference talk about leveraging Presidio and utilizing NLP approaches for data anonymization](https://youtu.be/Tl773LANRwY) @@ -117,7 +127,7 @@ To evaluate an existing model, see [this notebook](notebooks/models/Evaluate%20f This project welcomes contributions and suggestions. Most contributions require you to agree to a Contributor License Agreement (CLA) declaring that you have the right to, and actually do, grant us -the rights to use your contribution. For details, visit https://cla.opensource.microsoft.com. +the rights to use your contribution. For details, visit . When you submit a pull request, a CLA bot will automatically determine whether you need to provide a CLA and decorate the PR appropriately (e.g., status check, comment). Simply follow the instructions @@ -130,5 +140,5 @@ contact [opencode@microsoft.com](mailto:opencode@microsoft.com) with any additio Copyright notice: Fake Name Generator identities by the [Fake Name Generator](https://www.fakenamegenerator.com/) -are licensed under a [Creative Commons Attribution-Share Alike 3.0 United States License](http://creativecommons.org/licenses/by-sa/3.0/us/). +are licensed under a [Creative Commons Attribution-Share Alike 3.0 United States License](http://creativecommons.org/licenses/by-sa/3.0/us/). Fake Name Generator and the Fake Name Generator logo are trademarks of Corban Works, LLC. diff --git a/data/synth_dataset.txt b/data/synth_dataset.txt deleted file mode 100644 index 68759ef..0000000 --- a/data/synth_dataset.txt +++ /dev/null @@ -1,74124 +0,0 @@ -[ - { - "full_text": "My name is Erik Baader but everyone calls me Erik", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Erik Baader", - "start_position": 11, - "end_position": 22 - }, - { - "entity_type": "PERSON", - "entity_value": "Erik", - "start_position": 45, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Erik", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Erik", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Baader", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Baader", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 23, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "everyone", - "idx": 27, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "everyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "calls", - "idx": 36, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Erik", - "idx": 45, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "Erik", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Slovakia", - "Lowercase": false, - "Template#": 58 - } - }, - { - "full_text": "Kotoya Negishi listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Frank Strauser – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Kotoya Negishi", - "start_position": 0, - "end_position": 14 - }, - { - "entity_type": "PERSON", - "entity_value": "Frank Strauser", - "start_position": 170, - "end_position": 184 - } - ], - "tokens": [ - { - "text": "Kotoya", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Kotoya", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Negishi", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Negishi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 15, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 22, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 26, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 33, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 57, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 64, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 68, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 72, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 76, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 82, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 85, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 95, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 103, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 104, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 106, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 108, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 109, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 114, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 118, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 121, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 125, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 128, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 129, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 131, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 135, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 138, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 153, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 159, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 165, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 167, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Frank", - "idx": 170, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Frank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Strauser", - "idx": 176, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Strauser", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 185, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 187, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 189, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 192, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 198, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "France", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "Could you please email me the statement for laste month , my credit card number is 5467800309398046?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5467800309398046", - "start_position": 83, - "end_position": 99 - } - ], - "tokens": [ - { - "text": "Could", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 10, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 17, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 26, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "laste", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "laste", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 50, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 56, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 58, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 61, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 73, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 80, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5467800309398046", - "idx": 83, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "5467800309398046", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "California", - "Lowercase": false, - "Template#": 25 - } - }, - { - "full_text": "Unlike the Souza novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Souza", - "start_position": 11, - "end_position": 16 - } - ], - "tokens": [ - { - "text": "Unlike", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "unlike", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Souza", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Souza", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "novel", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "novel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 22, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 24, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 26, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 29, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 33, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "necrophilia", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "necrophilia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 50, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 52, - "tag_": "WP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 60, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 63, - "tag_": "IN", - "pos_": "ADP", - "dep_": "acomp", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 68, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 70, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "suppose", - "idx": 72, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 80, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "anyone", - "idx": 83, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "anyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 89, - "tag_": "POS", - "pos_": "PART", - "dep_": "auxpass", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "guess", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "guess", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 97, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brilliant", - "idx": 101, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "brilliant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "piece", - "idx": 111, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "piece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 117, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "baroque", - "idx": 120, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "baroque", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pop", - "idx": 128, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "pop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 131, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 96 - } - }, - { - "full_text": "Celebrating its 10th year in Villa de Ves, Trak Auto is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Villa de Ves", - "start_position": 29, - "end_position": 41 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Trak Auto", - "start_position": 43, - "end_position": 52 - } - ], - "tokens": [ - { - "text": "Celebrating", - "idx": 0, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "celebrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10th", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "10th", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Villa", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nmod", - "lemma_": "Villa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "de", - "idx": 35, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nmod", - "lemma_": "de", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ves", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ves", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 41, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Trak", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Trak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Auto", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Auto", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 53, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 56, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "501(c)3", - "idx": 58, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "501(c)3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 66, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invites", - "idx": 71, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "invite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 79, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 91, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "around", - "idx": 96, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 113, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Texas", - "idx": 116, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Texas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 122, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "share", - "idx": 125, - "tag_": "VB", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 131, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "universal", - "idx": 135, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "universal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "language", - "idx": 145, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "language", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 154, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 157, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 163, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "collaborations", - "idx": 166, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "collaboration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designed", - "idx": 181, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 190, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bridge", - "idx": 193, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "bridge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultures", - "idx": 200, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "culture", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 208, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "build", - "idx": 210, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "build", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "friendships", - "idx": 216, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "friendship", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 228, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultivate", - "idx": 232, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "cultivate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peace", - "idx": 242, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "peace", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 247, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Italy", - "Lowercase": false, - "Template#": 116 - } - }, - { - "full_text": "Maybe it's under Jonathan Lauritsen", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Jonathan Lauritsen", - "start_position": 17, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "Maybe", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "maybe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 11, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jonathan", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Jonathan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lauritsen", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Lauritsen", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Botswana", - "Lowercase": false, - "Template#": 75 - } - }, - { - "full_text": "from the film american graffiti (also features lincoln wormald. what's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "lincoln wormald", - "start_position": 47, - "end_position": 62 - } - ], - "tokens": [ - { - "text": "from", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "american", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lincoln", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "lincoln", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "wormald", - "idx": 55, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "wormald", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 62, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 64, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 68, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 71, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 75, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 78, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 82, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Australian", - "Country": "Monaco", - "Lowercase": true, - "Template#": 104 - } - }, - { - "full_text": "How do I check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Israel", - "Lowercase": false, - "Template#": 15 - } - }, - { - "full_text": "Here's my SSN: ", - "masked": null, - "spans": [ - { - "entity_type": "US_SSN", - "entity_value": "", - "start_position": 15, - "end_position": 15 - } - ], - "tokens": [ - { - "text": "Here", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SSN", - "idx": 10, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "ssn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 13, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Saudi Arabia", - "Lowercase": false, - "Template#": 86 - } - }, - { - "full_text": "What's your name? Longin Symanski", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Longin Symanski", - "start_position": 18, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 16, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Longin", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Longin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Symanski", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Symanski", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Peru", - "Lowercase": false, - "Template#": 66 - } - }, - { - "full_text": "Minik Jeremiassen listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Marisa Bisliev – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Minik Jeremiassen", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "PERSON", - "entity_value": "Marisa Bisliev", - "start_position": 173, - "end_position": 187 - } - ], - "tokens": [ - { - "text": "Minik", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Minik", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jeremiassen", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jeremiassen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 18, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 25, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 29, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 33, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 36, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 67, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 71, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 75, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 79, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 85, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 88, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 98, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 103, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 106, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 107, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 109, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 111, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 112, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 117, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 121, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 124, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 128, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 131, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 132, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 134, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 138, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 141, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 143, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 156, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 162, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 168, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 170, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Marisa", - "idx": 173, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Marisa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bisliev", - "idx": 180, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Bisliev", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 188, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 190, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 192, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 195, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 201, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Ireland", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "Avtorhan, can I please speak to your boss?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Avtorhan", - "start_position": 0, - "end_position": 8 - } - ], - "tokens": [ - { - "text": "Avtorhan", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Avtorhan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 8, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 10, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 14, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 16, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 23, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 29, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 32, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boss", - "idx": 37, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boss", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 41, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Portugal", - "Lowercase": false, - "Template#": 37 - } - }, - { - "full_text": "have you heard Line Henriksen speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Line Henriksen", - "start_position": 15, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Line", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Line", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Henriksen", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Henriksen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 30, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 36, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Qatar", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "george, can i please speak to your boss?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "george", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "george", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "george", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 6, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 8, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 14, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 30, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boss", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boss", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Australian", - "Country": "Djibouti", - "Lowercase": true, - "Template#": 37 - } - }, - { - "full_text": "The address of Coon Chicken Inn is ul. Zuchów 65, Dąbrowa Górnicza 41-303", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Coon Chicken Inn", - "start_position": 15, - "end_position": 31 - }, - { - "entity_type": "LOCATION", - "entity_value": "ul. Zuchów 65, Dąbrowa Górnicza 41-303", - "start_position": 35, - "end_position": 73 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Coon", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Coon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chicken", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Chicken", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Inn", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Inn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 32, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ul", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "ul", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 37, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zuchów", - "idx": 39, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Zuchów", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "65", - "idx": 46, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "65", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 48, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dąbrowa", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Dąbrowa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Górnicza", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Górnicza", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "41", - "idx": 67, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "41", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 69, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "303", - "idx": 70, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "303", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Middle East", - "Lowercase": false, - "Template#": 84 - } - }, - { - "full_text": "have you heard Daniela Jager speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Daniela Jager", - "start_position": 15, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Daniela", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Daniela", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jager", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Sri Lanka", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "have you heard Anđa Tomić speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Anđa Tomić", - "start_position": 15, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Anđa", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Anđa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tomić", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Tomić", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 26, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 32, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Croatian", - "Country": "Maldives", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "My card 4916843781747413 is expiring this month. Please let me know process to it's extend validity.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4916843781747413", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4916843781747413", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4916843781747413", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expiring", - "idx": 28, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 37, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "let", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "let", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "know", - "idx": 63, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "process", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "process", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 79, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 81, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "extend", - "idx": 84, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "extend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validity", - "idx": 91, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "validity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Trinidad And Tobago", - "Lowercase": false, - "Template#": 11 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Mozambique. Producer Devin Berg explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Mozambique", - "start_position": 34, - "end_position": 44 - }, - { - "entity_type": "PERSON", - "entity_value": "Devin Berg", - "start_position": 55, - "end_position": 65 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mozambique", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Mozambique", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Devin", - "idx": 55, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Devin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Berg", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Berg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 66, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 79, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 84, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 86, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 88, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 89, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 92, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 96, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 102, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 106, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 111, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 114, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 122, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 124, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 129, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 135, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 139, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 144, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 146, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 152, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 155, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 160, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 164, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 168, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 170, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 173, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 176, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 178, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 181, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 185, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 190, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 200, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 206, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 209, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 213, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 218, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 220, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 225, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 230, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 234, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 237, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 244, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 251, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 254, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 258, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 264, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 267, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 271, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 274, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 279, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 285, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 290, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 294, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 300, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 303, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 307, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 309, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 317, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 326, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 330, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 332, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 336, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 342, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 347, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 348, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Mozambique", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "Aron is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Aron", - "start_position": 0, - "end_position": 4 - } - ], - "tokens": [ - { - "text": "Aron", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Aron", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 8, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 10, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 15, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 27, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 33, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 35, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 40, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 47, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 52, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Armenia", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "Sometimes people call me Mayra", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mayra", - "start_position": 25, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "Sometimes", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sometimes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "people", - "idx": 10, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "people", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 17, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mayra", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "Mayra", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Lithuania", - "Lowercase": false, - "Template#": 74 - } - }, - { - "full_text": "Please send my portfolio to this email SvenZimmer@fleckens.hu", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "SvenZimmer@fleckens.hu", - "start_position": 39, - "end_position": 61 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "portfolio", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "portfolio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 28, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SvenZimmer@fleckens.hu", - "idx": 39, - "tag_": "ADD", - "pos_": "X", - "dep_": "appos", - "lemma_": "svenzimmer@fleckens.hu", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Iceland", - "Lowercase": false, - "Template#": 49 - } - }, - { - "full_text": "How do I change my address to 23 Settlement Road, WINNINDOO 3858 for post mail?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "23 Settlement Road, WINNINDOO 3858", - "start_position": 30, - "end_position": 64 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 16, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "23", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "23", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Settlement", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Settlement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Road", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Road", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 48, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "WINNINDOO", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "WINNINDOO", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3858", - "idx": 60, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3858", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 65, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "post", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "post", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mail", - "idx": 74, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "mail", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Croatian", - "Country": "Tunisia", - "Lowercase": false, - "Template#": 27 - } - }, - { - "full_text": "What are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Macedonia", - "Lowercase": false, - "Template#": 40 - } - }, - { - "full_text": "what is procedure to redeem points won on credit card 4929366514784904 transactions ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929366514784904", - "start_position": 54, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "what", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "procedure", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "procedure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 18, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "redeem", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "redeem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 28, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "won", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "win", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929366514784904", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4929366514784904", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transactions", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Benin", - "Lowercase": true, - "Template#": 13 - } - }, - { - "full_text": "From the film American graffiti (also features Ilya Bodrov. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ilya Bodrov", - "start_position": 47, - "end_position": 58 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ilya", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ilya", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bodrov", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Bodrov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 58, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 60, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 64, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 67, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 71, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 74, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Greece", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "Zoolander is a 2001 American action-comedy film directed by Carly Jones and starring Jones", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Carly Jones", - "start_position": 60, - "end_position": 71 - }, - { - "entity_type": "PERSON", - "entity_value": "Jones", - "start_position": 85, - "end_position": 90 - } - ], - "tokens": [ - { - "text": "Zoolander", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Zoolander", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 10, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 13, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2001", - "idx": 15, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2001", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "action", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "action", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 35, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "comedy", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "comedy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "directed", - "idx": 48, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "direct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carly", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Carly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jones", - "idx": 66, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Jones", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 72, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "starring", - "idx": 76, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "star", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jones", - "idx": 85, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Jones", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Scottish", - "Country": "Bolivia", - "Lowercase": false, - "Template#": 119 - } - }, - { - "full_text": "have you heard Nusa Márkus speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Nusa Márkus", - "start_position": 15, - "end_position": 26 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Nusa", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Nusa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Márkus", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Márkus", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 27, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Guinea", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "What are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Mali", - "Lowercase": false, - "Template#": 40 - } - }, - { - "full_text": "It's like that since 1/27/1952", - "masked": null, - "spans": [ - { - "entity_type": "BIRTHDAY", - "entity_value": "1/27/1952", - "start_position": 21, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "It", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 2, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 5, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "pobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "since", - "idx": 15, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "since", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1/27/1952", - "idx": 21, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1/27/1952", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-BIRTHDAY" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Suriname", - "Lowercase": false, - "Template#": 76 - } - }, - { - "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in P.O. Box 242, Kangerlussuaq 3910", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "P.O. Box 242, Kangerlussuaq 3910", - "start_position": 132, - "end_position": 164 - } - ], - "tokens": [ - { - "text": "So", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 3, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 9, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 13, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "meeting", - "idx": 16, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "meet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 23, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "There", - "idx": 25, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 30, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 33, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nice", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "nice", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 43, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Thai", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Thai", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 52, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "downtown", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "downtown", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 66, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cool", - "idx": 68, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "cool", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 72, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 74, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 78, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 81, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 92, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Oh", - "idx": 94, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "oh", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 97, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 100, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serve", - "idx": 105, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "vegan", - "idx": 111, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "vegan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stuff", - "idx": 117, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "stuff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 122, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 124, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 126, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 129, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "P.O.", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "P.O.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Box", - "idx": 137, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Box", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "242", - "idx": 141, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "242", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 144, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kangerlussuaq", - "idx": 146, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Kangerlussuaq", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3910", - "idx": 160, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3910", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Usa", - "Lowercase": false, - "Template#": 71 - } - }, - { - "full_text": "I'm so jealous! said Donát to Søren", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Donát", - "start_position": 21, - "end_position": 26 - }, - { - "entity_type": "PERSON", - "entity_value": "Søren", - "start_position": 30, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 4, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jealous", - "idx": 7, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "jealous", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 14, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 16, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Donát", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Donát", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Søren", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Søren", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Greenland", - "Country": "Singapore", - "Lowercase": false, - "Template#": 93 - } - }, - { - "full_text": "Maybe it's under Angus Hardacre", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Angus Hardacre", - "start_position": 17, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "Maybe", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "maybe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 11, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Angus", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Angus", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hardacre", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Hardacre", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Australian", - "Country": "Andorra", - "Lowercase": false, - "Template#": 75 - } - }, - { - "full_text": "How do I change the address linked to my credit card to Þverbraut 71, Blönduós 541?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Þverbraut 71, Blönduós 541", - "start_position": 56, - "end_position": 82 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "linked", - "idx": 28, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "link", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 38, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 48, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 53, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Þverbraut", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Þverbraut", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "71", - "idx": 66, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "71", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 68, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Blönduós", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Blönduós", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "541", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "541", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 82, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Republic Of Ireland", - "Lowercase": false, - "Template#": 19 - } - }, - { - "full_text": "How can I request a new credit card pin ?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pin", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "North Korea", - "Lowercase": false, - "Template#": 17 - } - }, - { - "full_text": "I want to increase limit on my card # 5509339531094917 for certain duration of time. is it possible?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5509339531094917", - "start_position": 38, - "end_position": 54 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "increase", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "increase", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 28, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 36, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5509339531094917", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "5509339531094917", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 55, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "certain", - "idx": 59, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "certain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "duration", - "idx": 67, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "duration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "time", - "idx": 79, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "time", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 83, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 85, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 88, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "possible", - "idx": 91, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "possible", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Costa Rica", - "Lowercase": false, - "Template#": 0 - } - }, - { - "full_text": "I'd like it to be sent to Grundingen 6, OSLO 0250", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Grundingen 6, OSLO 0250", - "start_position": 26, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Grundingen", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Grundingen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "6", - "idx": 37, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "6", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "OSLO", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "OSLO", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "0250", - "idx": 45, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "0250", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Singapore", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "I'd like it to be sent to R Sardinha 65, Várzea 5040-033", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "R Sardinha 65, Várzea 5040-033", - "start_position": 26, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "R", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "R", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sardinha", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Sardinha", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "65", - "idx": 37, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "65", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Várzea", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Várzea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5040", - "idx": 48, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5040", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 52, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "033", - "idx": 53, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "033", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Serbia", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "sometimes people call me sofie", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "sofie", - "start_position": 25, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "sometimes", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sometimes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "people", - "idx": 10, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "people", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 17, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sofie", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "sofie", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Australia", - "Lowercase": true, - "Template#": 74 - } - }, - { - "full_text": "The true gender of Riitta has been under debate for years, but the riff and building energy is a rock masterpiece regardless.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Riitta", - "start_position": 19, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "true", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "true", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gender", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "gender", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Riitta", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Riitta", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 26, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 30, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "debate", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "debate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 48, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "years", - "idx": 52, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 57, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 59, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "riff", - "idx": 67, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "riff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 72, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "building", - "idx": 76, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "building", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "energy", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "energy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 92, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 95, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rock", - "idx": 97, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rock", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masterpiece", - "idx": 102, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "masterpiece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regardless", - "idx": 114, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "regardless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 124, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Syria", - "Lowercase": false, - "Template#": 94 - } - }, - { - "full_text": "What is procedure to redeem points won on credit card 4539918765630129 transactions ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4539918765630129", - "start_position": 54, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "procedure", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "procedure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 18, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "redeem", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "redeem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 28, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "won", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "win", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4539918765630129", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4539918765630129", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transactions", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 13 - } - }, - { - "full_text": "Meet me at Östra Förstadsgatan 43, KNIVSTA 74192", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Östra Förstadsgatan 43, KNIVSTA 74192", - "start_position": 11, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "Meet", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "meet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 8, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Östra", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Östra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Förstadsgatan", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Förstadsgatan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "43", - "idx": 31, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "43", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 33, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "KNIVSTA", - "idx": 35, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "KNIVSTA", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "74192", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "74192", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Croatia", - "Lowercase": false, - "Template#": 70 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' EmilySanderson@jourrapide.com", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "EmilySanderson@jourrapide.com", - "start_position": 59, - "end_position": 88 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "EmilySanderson@jourrapide.com", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "pobj", - "lemma_": "emilysanderson@jourrapide.com", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Switzerland", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "Celebrating its 10th year in Mannekensvere, Maxi-Tech is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Mannekensvere", - "start_position": 29, - "end_position": 42 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Maxi-Tech", - "start_position": 44, - "end_position": 53 - } - ], - "tokens": [ - { - "text": "Celebrating", - "idx": 0, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "celebrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10th", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "10th", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mannekensvere", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Mannekensvere", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 42, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Maxi", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Maxi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 48, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tech", - "idx": 49, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Tech", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 54, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 57, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "501(c)3", - "idx": 59, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "501(c)3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 67, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invites", - "idx": 72, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "invite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 80, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 92, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "around", - "idx": 97, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 104, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 108, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 114, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Texas", - "idx": 117, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Texas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 123, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "share", - "idx": 126, - "tag_": "VB", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 132, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "universal", - "idx": 136, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "universal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "language", - "idx": 146, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "language", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 155, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 158, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 164, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "collaborations", - "idx": 167, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "collaboration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designed", - "idx": 182, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 191, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bridge", - "idx": 194, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "bridge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultures", - "idx": 201, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "culture", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 209, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "build", - "idx": 211, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "build", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "friendships", - "idx": 217, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "friendship", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 229, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultivate", - "idx": 233, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "cultivate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peace", - "idx": 243, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "peace", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 248, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Kenya", - "Lowercase": false, - "Template#": 116 - } - }, - { - "full_text": "How do I open my credit card statement?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "open", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "open", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 14, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Japanese (Anglicized)", - "Country": "Syria", - "Lowercase": false, - "Template#": 20 - } - }, - { - "full_text": "I will be travelling to Jamaica next week, so I need my passport to be ready by then", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Jamaica", - "start_position": 24, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "travelling", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "travel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jamaica", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Jamaica", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "next", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "week", - "idx": 37, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "week", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 41, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 43, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 46, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 48, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 53, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "passport", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "passport", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 65, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 68, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ready", - "idx": 71, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "ready", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 77, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "then", - "idx": 80, - "tag_": "RB", - "pos_": "ADV", - "dep_": "pcomp", - "lemma_": "then", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Jamaica", - "Lowercase": false, - "Template#": 22 - } - }, - { - "full_text": "Hello, this is Eng. Bojka Žilih. Who are you?", - "masked": null, - "spans": [ - { - "entity_type": "TITLE", - "entity_value": "Eng.", - "start_position": 15, - "end_position": 19 - }, - { - "entity_type": "PERSON", - "entity_value": "Bojka Žilih", - "start_position": 20, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "Hello", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "hello", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 5, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 12, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Eng", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Eng", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 18, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bojka", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Bojka", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Žilih", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Žilih", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Who", - "idx": 33, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "who", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 37, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 41, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-TITLE", - "L-TITLE", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "Poland", - "Lowercase": false, - "Template#": 50 - } - }, - { - "full_text": "What's your name? Milena Rossi", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Milena Rossi", - "start_position": 18, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 16, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Milena", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Milena", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rossi", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Rossi", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Greece", - "Lowercase": false, - "Template#": 66 - } - }, - { - "full_text": "I need to add addresses, here they are: Lukkarinmäentie 62, PORNAINEN 07170, Parmova 24, Mavčiče 4211", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Lukkarinmäentie 62, PORNAINEN 07170", - "start_position": 41, - "end_position": 76 - }, - { - "entity_type": "LOCATION", - "entity_value": "Parmova 24, Mavčiče 4211", - "start_position": 78, - "end_position": 102 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "add", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "add", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 14, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addresses", - "idx": 15, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 24, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 26, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 31, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 36, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 39, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lukkarinmäentie", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Lukkarinmäentie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "62", - "idx": 57, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "62", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 59, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PORNAINEN", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "PORNAINEN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "07170", - "idx": 71, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "07170", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 76, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Parmova", - "idx": 78, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Parmova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "24", - "idx": 86, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "24", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 88, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mavčiče", - "idx": 90, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Mavčiče", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4211", - "idx": 98, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4211", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Botswana", - "Lowercase": false, - "Template#": 48 - } - }, - { - "full_text": "For my take on Mr. Bergström, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bergström", - "start_position": 19, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bergström", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Bergström", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 28, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 30, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 41, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 50, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 52, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 64, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 67, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 75, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 78, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 82, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 91, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 94, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 99, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 100, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 104, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 113, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 117, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Haiti", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "What's your last name? Herceg", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Herceg", - "start_position": 23, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 21, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Herceg", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Herceg", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Croatian", - "Country": "Dominican Republic", - "Lowercase": false, - "Template#": 67 - } - }, - { - "full_text": "The Tiegan Hill version recorded for Great Western became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Tiegan Hill", - "start_position": 4, - "end_position": 15 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Great Western", - "start_position": 37, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tiegan", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Tiegan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hill", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Hill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "version", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "version", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recorded", - "idx": 24, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "record", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 33, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Great", - "idx": 37, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Great", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Western", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Western", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 51, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 62, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "celebrity", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "celebrity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recording", - "idx": 78, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "recording", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 88, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 91, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "classical", - "idx": 93, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "classical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musician", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 112, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sell", - "idx": 115, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "sell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 120, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 124, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "copies", - "idx": 132, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "copy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 138, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 140, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 144, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 149, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "awarded", - "idx": 153, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "award", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 161, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "seventh", - "idx": 165, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "seventh", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gold", - "idx": 173, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "gold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "disc", - "idx": 178, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "disc", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ever", - "idx": 183, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "ever", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "granted", - "idx": 188, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "grant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 195, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Scottish", - "Country": "Cape Verde Islands", - "Lowercase": false, - "Template#": 110 - } - }, - { - "full_text": "Liviana Palerma will be talking in the conference", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Liviana Palerma", - "start_position": 0, - "end_position": 15 - } - ], - "tokens": [ - { - "text": "Liviana", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Liviana", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Palerma", - "idx": 8, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Palerma", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 16, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 21, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "talking", - "idx": 24, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "talk", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 35, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "conference", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "conference", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Zambia", - "Lowercase": false, - "Template#": 90 - } - }, - { - "full_text": "Nusa Weress listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Klimek Kozłowski – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Nusa Weress", - "start_position": 0, - "end_position": 11 - }, - { - "entity_type": "PERSON", - "entity_value": "Klimek Kozłowski", - "start_position": 167, - "end_position": 183 - } - ], - "tokens": [ - { - "text": "Nusa", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Nusa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weress", - "idx": 5, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Weress", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 12, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 19, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 23, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 27, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 30, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 61, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 65, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 69, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 73, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 79, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 82, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 87, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 97, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 100, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 101, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 103, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 105, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 106, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 111, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 115, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 118, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 122, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 125, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 126, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 128, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 132, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 135, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 137, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 150, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 156, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 162, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 164, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Klimek", - "idx": 167, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Klimek", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kozłowski", - "idx": 174, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Kozłowski", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 184, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 186, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 188, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 191, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 197, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Yemen", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "Georgia was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Georgia", - "start_position": 0, - "end_position": 7 - } - ], - "tokens": [ - { - "text": "Georgia", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Georgia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 8, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 22, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 25, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 30, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Georgia", - "Lowercase": false, - "Template#": 24 - } - }, - { - "full_text": "I'm so jealous! said Bárður to Victoria", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bárður", - "start_position": 21, - "end_position": 27 - }, - { - "entity_type": "PERSON", - "entity_value": "Victoria", - "start_position": 31, - "end_position": 39 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 4, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jealous", - "idx": 7, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "jealous", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 14, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 16, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bárður", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Bárður", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Victoria", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Victoria", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Cameroon", - "Lowercase": false, - "Template#": 93 - } - }, - { - "full_text": "Sölvi Salómonsson from 10,000 Auto Parts is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Sölvi Salómonsson", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "10,000 Auto Parts", - "start_position": 23, - "end_position": 40 - } - ], - "tokens": [ - { - "text": "Sölvi", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sölvi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Salómonsson", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Salómonsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10,000", - "idx": 23, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10,000", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Auto", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Auto", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Parts", - "idx": 35, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Parts", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 41, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 44, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 48, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Ukraine", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "can i speak to a real person?!?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 15, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "real", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "real", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 28, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 30, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "Niger", - "Lowercase": true, - "Template#": 44 - } - }, - { - "full_text": "card number 5137226842425650 is lost, can you please send a new one to Σουνίου 121, ΛΑΡΝΑΚΑ 6014 i am in ΛΑΡΝΑΚΑ for a business trip", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5137226842425650", - "start_position": 12, - "end_position": 28 - }, - { - "entity_type": "LOCATION", - "entity_value": "Σουνίου 121, ΛΑΡΝΑΚΑ 6014", - "start_position": 71, - "end_position": 96 - }, - { - "entity_type": "LOCATION", - "entity_value": "ΛΑΡΝΑΚΑ", - "start_position": 105, - "end_position": 112 - } - ], - "tokens": [ - { - "text": "card", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5137226842425650", - "idx": 12, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5137226842425650", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 32, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 36, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 46, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Σουνίου", - "idx": 71, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advcl", - "lemma_": "Σουνίου", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "121", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "121", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 82, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ΛΑΡΝΑΚΑ", - "idx": 84, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "ΛΑΡΝΑΚΑ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "6014", - "idx": 92, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "6014", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 97, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "am", - "idx": 99, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 102, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ΛΑΡΝΑΚΑ", - "idx": 105, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "ΛΑΡΝΑΚΑ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 113, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 117, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "business", - "idx": 119, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "trip", - "idx": 128, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "trip", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Japanese (Anglicized)", - "Country": "Senegal", - "Lowercase": false, - "Template#": 29 - } - }, - { - "full_text": "mission statement: this non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid,\" according to the i. magnin website. they offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "i. magnin", - "start_position": 257, - "end_position": 266 - } - ], - "tokens": [ - { - "text": "mission", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "mission", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 17, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "non", - "idx": 24, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "non", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "profit", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "profit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founded", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "found", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 43, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "radio", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "radio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "executives", - "idx": 52, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "executive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 63, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serves", - "idx": 64, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 71, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "advocate", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "advocate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 86, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "value", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "value", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 108, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 110, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 114, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "supports", - "idx": 115, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "support", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 124, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 128, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 139, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "composers", - "idx": 141, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "composer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 151, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "publishers", - "idx": 155, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "publisher", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 166, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taking", - "idx": 169, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "care", - "idx": 176, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "care", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 181, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 184, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "important", - "idx": 187, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "important", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aspect", - "idx": 197, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "aspect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 204, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "their", - "idx": 207, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "careers", - "idx": 213, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "career", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 221, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "aux", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 223, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 225, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "auxpass", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "paid", - "idx": 233, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 237, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 238, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "according", - "idx": 240, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "accord", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 250, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 253, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i.", - "idx": 257, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "i.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "magnin", - "idx": 260, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "magnin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 267, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 274, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 276, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "offer", - "idx": 281, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "offer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blanket", - "idx": 287, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "blanket", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 295, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "licenses", - "idx": 301, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "license", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 310, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "businesses", - "idx": 313, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 324, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "organizations", - "idx": 328, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "organization", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 342, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 347, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "them", - "idx": 353, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 358, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "play", - "idx": 361, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "play", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nearly", - "idx": 366, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "nearly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "13", - "idx": 373, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "13", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 376, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 384, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "works", - "idx": 392, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 397, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Morocco", - "Lowercase": true, - "Template#": 114 - } - }, - { - "full_text": "Need to see last 10 transaction of card 4556449812341468", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4556449812341468", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10", - "idx": 17, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transaction", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4556449812341468", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4556449812341468", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Azerbaijan", - "Lowercase": false, - "Template#": 9 - } - }, - { - "full_text": "My name appears incorrectly on credit card statement could you please correct it to Prof. Matthias Gloeckner?", - "masked": null, - "spans": [ - { - "entity_type": "TITLE", - "entity_value": "Prof.", - "start_position": 84, - "end_position": 89 - }, - { - "entity_type": "PERSON", - "entity_value": "Matthias Gloeckner", - "start_position": 90, - "end_position": 108 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "appears", - "idx": 8, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "appear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "incorrectly", - "idx": 16, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "incorrectly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 38, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 53, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 59, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 63, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 70, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 78, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 81, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Prof.", - "idx": 84, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Prof.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Matthias", - "idx": 90, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Matthias", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Gloeckner", - "idx": 99, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Gloeckner", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 108, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-TITLE", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Haiti", - "Lowercase": false, - "Template#": 28 - } - }, - { - "full_text": "Need to see last 10 transaction of card 5274120301749804", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5274120301749804", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10", - "idx": 17, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transaction", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5274120301749804", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5274120301749804", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Venezuela", - "Lowercase": false, - "Template#": 9 - } - }, - { - "full_text": "how do i change my address to ul. pck 125, jastrzębie-zdrój 44-335 for post mail?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "ul. pck 125, jastrzębie-zdrój 44-335", - "start_position": 30, - "end_position": 66 - } - ], - "tokens": [ - { - "text": "how", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 16, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ul", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ul", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 32, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "pobj", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pck", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "pck", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "125", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "125", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 41, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jastrzębie", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "jastrzębie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 53, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "zdrój", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "zdrój", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "44", - "idx": 60, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "44", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 62, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "335", - "idx": 63, - "tag_": "CD", - "pos_": "NUM", - "dep_": "prep", - "lemma_": "335", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 67, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "post", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "post", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mail", - "idx": 76, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "mail", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 80, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Nepal", - "Lowercase": true, - "Template#": 27 - } - }, - { - "full_text": "I've shared files with you ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 27, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'ve", - "idx": 1, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shared", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "files", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "file", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "France", - "Lowercase": false, - "Template#": 80 - } - }, - { - "full_text": "I'd like it to be sent to Rua Carlos Alberto de Morais 1696, Timon 65633-150", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Rua Carlos Alberto de Morais 1696, Timon 65633-150", - "start_position": 26, - "end_position": 76 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rua", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rua", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carlos", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Carlos", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Alberto", - "idx": 37, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nmod", - "lemma_": "Alberto", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "de", - "idx": 45, - "tag_": "IN", - "pos_": "ADP", - "dep_": "compound", - "lemma_": "de", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Morais", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Morais", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1696", - "idx": 55, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "1696", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 59, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Timon", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Timon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "65633", - "idx": 67, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "65633", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 72, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "150", - "idx": 73, - "tag_": "CD", - "pos_": "NUM", - "dep_": "prep", - "lemma_": "150", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Malaysia", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "Dun Rite Lawn Care is the brainchild of our 3 founders: Charlotte Park, Oline Mikaelsen and Brodie Walker. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Dun Rite Lawn Care", - "start_position": 0, - "end_position": 18 - }, - { - "entity_type": "PERSON", - "entity_value": "Charlotte Park", - "start_position": 56, - "end_position": 70 - }, - { - "entity_type": "PERSON", - "entity_value": "Oline Mikaelsen", - "start_position": 72, - "end_position": 87 - }, - { - "entity_type": "PERSON", - "entity_value": "Brodie Walker", - "start_position": 92, - "end_position": 105 - } - ], - "tokens": [ - { - "text": "Dun", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Dun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rite", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lawn", - "idx": 9, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lawn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Care", - "idx": 14, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Care", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 19, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brainchild", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "brainchild", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 37, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3", - "idx": 44, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founders", - "idx": 46, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "founder", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 54, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Charlotte", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Charlotte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Park", - "idx": 66, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Park", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 70, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Oline", - "idx": 72, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Oline", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mikaelsen", - "idx": 78, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Mikaelsen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 88, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brodie", - "idx": 92, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Brodie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Walker", - "idx": 99, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Walker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 105, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 107, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 108, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 112, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 117, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "born", - "idx": 121, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 126, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 127, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 130, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beach", - "idx": 134, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 139, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 141, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 147, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 152, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "constructing", - "idx": 157, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "construct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 170, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 172, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 180, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 183, - "tag_": "VB", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 186, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "basis", - "idx": 190, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "basis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 196, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "another", - "idx": 199, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "another", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "start", - "idx": 207, - "tag_": "VB", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "start", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 212, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 213, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 216, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 220, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Asia", - "Lowercase": false, - "Template#": 117 - } - }, - { - "full_text": "Mikkel is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mikkel", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "Mikkel", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Mikkel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 12, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 37, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 39, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 42, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 47, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 49, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Yugoslavia", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "I have lost my card 4929149013148403. Could you please block my credit card ASAP ? , My name is Valida Kishiev.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929149013148403", - "start_position": 20, - "end_position": 36 - }, - { - "entity_type": "PERSON", - "entity_value": "Valida Kishiev", - "start_position": 96, - "end_position": 110 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929149013148403", - "idx": 20, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "4929149013148403", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 48, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 55, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 61, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ASAP", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advmod", - "lemma_": "ASAP", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 85, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 88, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 93, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Valida", - "idx": 96, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Valida", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kishiev", - "idx": 103, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Kishiev", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 110, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Vietnam", - "Lowercase": false, - "Template#": 10 - } - }, - { - "full_text": "How do I check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Sunni", - "Lowercase": false, - "Template#": 15 - } - }, - { - "full_text": "From the film American graffiti (also features Mille Kristensen. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mille Kristensen", - "start_position": 47, - "end_position": 63 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mille", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mille", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kristensen", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Kristensen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 63, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 65, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 69, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 72, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 79, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 83, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Germany", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "I would like to remove my kid Nedim from the will. How do I do that?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Nedim", - "start_position": 30, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "remove", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "remove", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kid", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "kid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Nedim", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Nedim", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 41, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 45, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "How", - "idx": 51, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 55, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 58, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 60, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Scotland", - "Lowercase": false, - "Template#": 45 - } - }, - { - "full_text": "I want to upadte my primary and secondary address to same: 4822 Rosemont Avenue, Melbourne 32901", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "4822 Rosemont Avenue, Melbourne 32901", - "start_position": 59, - "end_position": 96 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "upadte", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "upadte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "primary", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "primary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "secondary", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "conj", - "lemma_": "secondary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "same", - "idx": 53, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "pobj", - "lemma_": "same", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 57, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4822", - "idx": 59, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4822", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rosemont", - "idx": 64, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rosemont", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Avenue", - "idx": 73, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Avenue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 79, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Melbourne", - "idx": 81, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Melbourne", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "32901", - "idx": 91, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "32901", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Brunei", - "Lowercase": false, - "Template#": 3 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Ethiopia. Producer Joseph Farmer explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Ethiopia", - "start_position": 34, - "end_position": 42 - }, - { - "entity_type": "PERSON", - "entity_value": "Joseph Farmer", - "start_position": 53, - "end_position": 66 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ethiopia", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ethiopia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 42, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 44, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Joseph", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Joseph", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Farmer", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Farmer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 67, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 77, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 87, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 89, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 90, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 97, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 112, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 115, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 123, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 125, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 130, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 136, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 140, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 145, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 147, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 153, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 156, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 161, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 165, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 169, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 171, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 174, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 177, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 179, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 182, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 186, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 191, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 201, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 207, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 210, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 214, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 219, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 221, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 226, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 231, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 235, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 238, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 245, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 252, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 255, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 259, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 265, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 268, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 272, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 275, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 280, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 286, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 291, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 295, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 301, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 304, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 308, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 310, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 318, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 327, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 331, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 333, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 337, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 343, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 348, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 349, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Ethiopia", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "religion", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "religion", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "does", - "idx": 12, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 17, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaking", - "idx": 27, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bots", - "idx": 39, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 43, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 50, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "evil", - "idx": 54, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "evil", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 59, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hacked", - "idx": 63, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "hack", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 70, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Devil", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Devil", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Icelandic", - "Country": "Bahrain", - "Lowercase": false, - "Template#": 32 - } - }, - { - "full_text": "Need to change billing date of my card 5523189324690427", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5523189324690427", - "start_position": 39, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "billing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5523189324690427", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "npadvmod", - "lemma_": "5523189324690427", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Vietnam", - "Lowercase": false, - "Template#": 2 - } - }, - { - "full_text": "How do I change my address to 23 Settlement Road, WINNINDOO 3858 for post mail?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "23 Settlement Road, WINNINDOO 3858", - "start_position": 30, - "end_position": 64 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 16, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "23", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "23", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Settlement", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Settlement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Road", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Road", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 48, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "WINNINDOO", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "WINNINDOO", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3858", - "idx": 60, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3858", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 65, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "post", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "post", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mail", - "idx": 74, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "mail", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Croatian", - "Country": "Tunisia", - "Lowercase": false, - "Template#": 27 - } - }, - { - "full_text": "Need to change billing date of my card 5219586763129719", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5219586763129719", - "start_position": 39, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "billing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5219586763129719", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5219586763129719", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Iraq", - "Lowercase": false, - "Template#": 2 - } - }, - { - "full_text": "I work for Modern Realty", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Modern Realty", - "start_position": 11, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Modern", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Modern", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Realty", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Realty", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "North Korea", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "Please update billing addrress with Tekniikantie 8, PUNKAHARJU 58450 for this card: 5279257345280449", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Tekniikantie 8, PUNKAHARJU 58450", - "start_position": 36, - "end_position": 68 - }, - { - "entity_type": "CREDIT_CARD", - "entity_value": "5279257345280449", - "start_position": 84, - "end_position": 100 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "update", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "update", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 14, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "bill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addrress", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "addrress", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 31, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tekniikantie", - "idx": 36, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Tekniikantie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "8", - "idx": 49, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "8", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 50, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PUNKAHARJU", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "PUNKAHARJU", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "58450", - "idx": 63, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "58450", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 69, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 78, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 82, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5279257345280449", - "idx": 84, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "5279257345280449", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Pakistan", - "Lowercase": false, - "Template#": 8 - } - }, - { - "full_text": "Nestor is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Nestor", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "Nestor", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Nestor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 12, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 37, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 39, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 42, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 47, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 49, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Sweden", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "Please tell me your date of birth. It's 12/18/1989", - "masked": null, - "spans": [ - { - "entity_type": "BIRTHDAY", - "entity_value": "12/18/1989", - "start_position": 40, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "birth", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "birth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 33, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 35, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "12/18/1989", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "12/18/1989", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-BIRTHDAY" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Mozambique", - "Lowercase": false, - "Template#": 59 - } - }, - { - "full_text": "Need to change billing date of my card 4929112942340210", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929112942340210", - "start_position": 39, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "billing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929112942340210", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4929112942340210", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Maldives", - "Lowercase": false, - "Template#": 2 - } - }, - { - "full_text": "My website is ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 14, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 11, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Bolivia", - "Lowercase": false, - "Template#": 78 - } - }, - { - "full_text": "Why is Bethany so impulsive?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bethany", - "start_position": 7, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "Why", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bethany", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Bethany", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 15, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "impulsive", - "idx": 18, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "impulsive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "England", - "Lowercase": false, - "Template#": 89 - } - }, - { - "full_text": "i want to cancel my card 4532781491729798 because i lost it", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4532781491729798", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "i", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4532781491729798", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4532781491729798", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "because", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "because", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 50, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 52, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Kenya", - "Lowercase": true, - "Template#": 52 - } - }, - { - "full_text": "I work for Buttrey Food & Drug", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Buttrey Food & Drug", - "start_position": 11, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Buttrey", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Buttrey", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Food", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Food", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "&", - "idx": 24, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "&", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Drug", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Drug", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "Macedonia", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "I've shared files with you ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 27, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'ve", - "idx": 1, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shared", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "files", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "file", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Eritrea", - "Lowercase": false, - "Template#": 80 - } - }, - { - "full_text": "Maybe it's under Reineke Stuit", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Reineke Stuit", - "start_position": 17, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "Maybe", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "maybe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 11, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Reineke", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Reineke", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stuit", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Stuit", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Jordan", - "Lowercase": false, - "Template#": 75 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' NatalinaLucchese@superrito.com", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "NatalinaLucchese@superrito.com", - "start_position": 59, - "end_position": 89 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "NatalinaLucchese@superrito.com", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "pobj", - "lemma_": "natalinalucchese@superrito.com", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Somalia", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Israel. Producer Zdeňka Nováková explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Israel", - "start_position": 34, - "end_position": 40 - }, - { - "entity_type": "PERSON", - "entity_value": "Zdeňka Nováková", - "start_position": 51, - "end_position": 66 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Israel", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Israel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zdeňka", - "idx": 51, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zdeňka", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Nováková", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Nováková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 67, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 77, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 87, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 89, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 90, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 97, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 112, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 115, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 123, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 125, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 130, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 136, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 140, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 145, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 147, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 153, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 156, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 161, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 165, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 169, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 171, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 174, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 177, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 179, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 182, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 186, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 191, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 201, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 207, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 210, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 214, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 219, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 221, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 226, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 231, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 235, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 238, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 245, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 252, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 255, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 259, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 265, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 268, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 272, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 275, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 280, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 286, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 291, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 295, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 301, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 304, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 308, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 310, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 318, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 327, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 331, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 333, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 337, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 343, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 348, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 349, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Israel", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "Bot: Where would you like this to be sent to? User: Bergliveien 232, STAVANGER 4020", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Bergliveien 232, STAVANGER 4020", - "start_position": 52, - "end_position": 83 - } - ], - "tokens": [ - { - "text": "Bot", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 3, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Where", - "idx": 5, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 11, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 26, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 31, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 34, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 37, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "User", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 50, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bergliveien", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Bergliveien", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "232", - "idx": 64, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "232", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 67, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "STAVANGER", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "STAVANGER", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4020", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4020", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Liberia", - "Lowercase": false, - "Template#": 41 - } - }, - { - "full_text": "I'd like it to be sent to 4144 Sycamore Circle, Euless 76039", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "4144 Sycamore Circle, Euless 76039", - "start_position": 26, - "end_position": 60 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4144", - "idx": 26, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4144", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sycamore", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sycamore", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Circle", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Circle", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 46, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Euless", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Euless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "76039", - "idx": 55, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "76039", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "Asia", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "Why is Efimiya so impulsive?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Efimiya", - "start_position": 7, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "Why", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Efimiya", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Efimiya", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 15, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "impulsive", - "idx": 18, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "impulsive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Latvia", - "Lowercase": false, - "Template#": 89 - } - }, - { - "full_text": "What is the limit for card 4929854539121566?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929854539121566", - "start_position": 27, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 8, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929854539121566", - "idx": 27, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4929854539121566", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Zambia", - "Lowercase": false, - "Template#": 54 - } - }, - { - "full_text": "I want to add William Kjær as a beneficiary to my account", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "William Kjær", - "start_position": 14, - "end_position": 26 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "add", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "add", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "William", - "idx": 14, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "William", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kjær", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Kjær", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 27, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beneficiary", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beneficiary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 44, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 47, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 50, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Wales", - "Lowercase": false, - "Template#": 51 - } - }, - { - "full_text": "Can someone call me on 99 702542? I have some questions about opening an account.", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "99 702542", - "start_position": 23, - "end_position": 32 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "someone", - "idx": 4, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "someone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 12, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 20, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "99", - "idx": 23, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "99", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "702542", - "idx": 26, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "702542", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 32, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 34, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 36, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "some", - "idx": 41, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "some", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "questions", - "idx": 46, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "question", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 56, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "opening", - "idx": 62, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "open", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 70, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 73, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 80, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Guinea", - "Lowercase": false, - "Template#": 55 - } - }, - { - "full_text": "south-america was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "south-america", - "start_position": 0, - "end_position": 13 - } - ], - "tokens": [ - { - "text": "south", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "south", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 5, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "america", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "america", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 14, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 18, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 28, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 31, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "South-America", - "Lowercase": true, - "Template#": 24 - } - }, - { - "full_text": "How can I request a new credit card pin ?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pin", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Japanese (Anglicized)", - "Country": "Sri Lanka", - "Lowercase": false, - "Template#": 17 - } - }, - { - "full_text": "Emilie Johansen listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Polona Ranković – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Emilie Johansen", - "start_position": 0, - "end_position": 15 - }, - { - "entity_type": "PERSON", - "entity_value": "Polona Ranković", - "start_position": 171, - "end_position": 186 - } - ], - "tokens": [ - { - "text": "Emilie", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Emilie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Johansen", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Johansen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 16, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 31, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 34, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 65, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 69, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 77, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 83, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 86, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 91, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 96, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 101, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 104, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 105, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 107, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 109, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 110, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 115, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 119, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 122, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 126, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 129, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 130, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 132, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 136, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 139, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 141, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 154, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 160, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 166, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 168, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Polona", - "idx": 171, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Polona", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ranković", - "idx": 178, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ranković", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 187, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 189, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 191, - "tag_": "VB", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 194, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 200, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "Guyana", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "What's your credit card? 4929218835001304", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929218835001304", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 23, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929218835001304", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "ROOT", - "lemma_": "4929218835001304", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Australian", - "Country": "Paraguay", - "Lowercase": false, - "Template#": 65 - } - }, - { - "full_text": "For my take on Mr. Wilson, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Wilson", - "start_position": 19, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Wilson", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Wilson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 25, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 27, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 38, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 47, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 49, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 51, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 61, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 64, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 68, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 72, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 75, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 79, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 88, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 91, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 96, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 97, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 101, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 110, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 114, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Latvia", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "Gabrjel Kozłowski from Second Time Around is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Gabrjel Kozłowski", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Second Time Around", - "start_position": 23, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "Gabrjel", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Gabrjel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kozłowski", - "idx": 8, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Kozłowski", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Second", - "idx": 23, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "compound", - "lemma_": "second", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Time", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "time", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Around", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "nsubj", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 42, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 49, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 57, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Eritrea", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Marsilius Chenard's Cautionary Tales. Is there a better example of unbridled creativity than early Chenard?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Marsilius Chenard", - "start_position": 124, - "end_position": 141 - }, - { - "entity_type": "PERSON", - "entity_value": "Chenard", - "start_position": 223, - "end_position": 230 - } - ], - "tokens": [ - { - "text": "When", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 10, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 14, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "singing", - "idx": 18, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "singe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hobbits", - "idx": 32, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Hobbits", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "satanic", - "idx": 41, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "satanic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "felines", - "idx": 49, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "feline", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 57, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "interstellar", - "idx": 61, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "interstellar", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "journeys", - "idx": 74, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "journey", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 82, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 84, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 89, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "singing", - "idx": 94, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "singe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 102, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 108, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verses", - "idx": 112, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Marsilius", - "idx": 124, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Marsilius", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chenard", - "idx": 134, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Chenard", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 141, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cautionary", - "idx": 144, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "cautionary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tales", - "idx": 155, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Tales", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 160, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Is", - "idx": 162, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 165, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 171, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "better", - "idx": 173, - "tag_": "JJR", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "well", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 180, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 188, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unbridled", - "idx": 191, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "unbridled", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "creativity", - "idx": 201, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "creativity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "than", - "idx": 212, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "than", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "early", - "idx": 217, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chenard", - "idx": 223, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Chenard", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 230, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "El Salvador", - "Lowercase": false, - "Template#": 101 - } - }, - { - "full_text": "I work for Locost Accessories", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Locost Accessories", - "start_position": 11, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Locost", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Locost", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Accessories", - "idx": 18, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "accessory", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Kuwait", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "Can someone call me on 0477 99 13 51? I have some questions about opening an account.", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "0477 99 13 51", - "start_position": 23, - "end_position": 36 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "someone", - "idx": 4, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "someone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 12, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 20, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "0477", - "idx": 23, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "0477", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "99", - "idx": 28, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "99", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "13", - "idx": 31, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "13", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "51", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "51", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 38, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 40, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "some", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "some", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "questions", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "question", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 60, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "opening", - "idx": 66, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "open", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 55 - } - }, - { - "full_text": "I can't browse to your site, keep getting address blocked error", - "masked": null, - "spans": [ - { - "entity_type": "IP_ADDRESS", - "entity_value": "", - "start_position": 50, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ca", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 4, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "browse", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "browse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 18, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "site", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "site", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keep", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "keep", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 34, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 50, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blocked", - "idx": 51, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "error", - "idx": 59, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "error", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Palestine", - "Lowercase": false, - "Template#": 31 - } - }, - { - "full_text": "tryggvadóttir spent a year at rogers peet as the assistant to margrét tryggvadóttir, and the following year at big wheel in begonte, which later became movie gallery in 1965.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "tryggvadóttir", - "start_position": 0, - "end_position": 13 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "rogers peet", - "start_position": 30, - "end_position": 41 - }, - { - "entity_type": "PERSON", - "entity_value": "margrét tryggvadóttir", - "start_position": 62, - "end_position": 83 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "big wheel", - "start_position": 111, - "end_position": 120 - }, - { - "entity_type": "LOCATION", - "entity_value": "begonte", - "start_position": 124, - "end_position": 131 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "movie gallery", - "start_position": 152, - "end_position": 165 - } - ], - "tokens": [ - { - "text": "tryggvadóttir", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "tryggvadóttir", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "spent", - "idx": 14, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "spend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 20, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rogers", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "rogers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peet", - "idx": 37, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "peet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "assistant", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "assistant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 59, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "margrét", - "idx": 62, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "margrét", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tryggvadóttir", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "tryggvadóttir", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 85, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 89, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "following", - "idx": 93, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "following", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 108, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "big", - "idx": 111, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "wheel", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "wheel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 121, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "begonte", - "idx": 124, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "begonte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 131, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "which", - "idx": 133, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "which", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "later", - "idx": 139, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "later", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 145, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "movie", - "idx": 152, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "movie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gallery", - "idx": 158, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "gallery", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 166, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1965", - "idx": 169, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1965", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 173, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Icelandic", - "Country": "Greece", - "Lowercase": true, - "Template#": 123 - } - }, - { - "full_text": "Please tell me your date of birth. It's 6/24/1958", - "masked": null, - "spans": [ - { - "entity_type": "BIRTHDAY", - "entity_value": "6/24/1958", - "start_position": 40, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "birth", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "birth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 33, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 35, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "6/24/1958", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "6/24/1958", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-BIRTHDAY" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "France", - "Lowercase": false, - "Template#": 59 - } - }, - { - "full_text": "Please send my portfolio to this email HannaUkkonen@dayrep.com", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "HannaUkkonen@dayrep.com", - "start_position": 39, - "end_position": 62 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "portfolio", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "portfolio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 28, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "HannaUkkonen@dayrep.com", - "idx": 39, - "tag_": "ADD", - "pos_": "X", - "dep_": "appos", - "lemma_": "hannaukkonen@dayrep.com", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Burkina", - "Lowercase": false, - "Template#": 49 - } - }, - { - "full_text": "Can I withdraw cash using my card 4485430802377197 at aTM center ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4485430802377197", - "start_position": 34, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdraw", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "withdraw", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cash", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "cash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "using", - "idx": 20, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "use", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 26, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4485430802377197", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4485430802377197", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aTM", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "punct", - "lemma_": "aTM", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "center", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "center", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 65, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Ethiopia", - "Lowercase": false, - "Template#": 18 - } - }, - { - "full_text": "the simone kristoffersen version recorded for hechinger became the first celebrity recording by a classical musician to sell one million copies. the song was awarded the seventh gold disc ever granted.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "simone kristoffersen", - "start_position": 4, - "end_position": 24 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "hechinger", - "start_position": 46, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "the", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "simone", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "simone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kristoffersen", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "kristoffersen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "version", - "idx": 25, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "version", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recorded", - "idx": 33, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "record", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hechinger", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "hechinger", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 56, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 67, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "celebrity", - "idx": 73, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "celebrity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recording", - "idx": 83, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "recording", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 93, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 96, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "classical", - "idx": 98, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "classical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musician", - "idx": 108, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 117, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sell", - "idx": 120, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "sell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 125, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 129, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "copies", - "idx": 137, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "copy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 143, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 145, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 149, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 154, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "awarded", - "idx": 158, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "award", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 166, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "seventh", - "idx": 170, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "seventh", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gold", - "idx": 178, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "gold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "disc", - "idx": 183, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "disc", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ever", - "idx": 188, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "ever", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "granted", - "idx": 193, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "grant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 200, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "U-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Barbados", - "Lowercase": true, - "Template#": 110 - } - }, - { - "full_text": "How do I check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hispanic", - "Country": "Vatican City", - "Lowercase": false, - "Template#": 15 - } - }, - { - "full_text": "Micro Design songwriter Zuzana Kozáková employs corporate lingo in the first verse of his Romp Resignation Letter", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Micro Design", - "start_position": 0, - "end_position": 12 - }, - { - "entity_type": "PERSON", - "entity_value": "Zuzana Kozáková", - "start_position": 24, - "end_position": 39 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Romp", - "start_position": 90, - "end_position": 94 - } - ], - "tokens": [ - { - "text": "Micro", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Micro", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Design", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriter", - "idx": 13, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zuzana", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zuzana", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kozáková", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Kozáková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employs", - "idx": 40, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "employ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "corporate", - "idx": 48, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "corporate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lingo", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "lingo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 64, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 67, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 71, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verse", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 83, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 86, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Romp", - "idx": 90, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Romp", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Resignation", - "idx": 95, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "resignation", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Letter", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "letter", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-ORGANIZATION", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Panama", - "Lowercase": false, - "Template#": 113 - } - }, - { - "full_text": "I want to upadte my primary and secondary address to same: Solvellir 96, Breiðdalsvík 760", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Solvellir 96, Breiðdalsvík 760", - "start_position": 59, - "end_position": 89 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "upadte", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "upadte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "primary", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "primary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "secondary", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "conj", - "lemma_": "secondary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "same", - "idx": 53, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "pobj", - "lemma_": "same", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 57, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Solvellir", - "idx": 59, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Solvellir", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "96", - "idx": 69, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "96", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 71, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Breiðdalsvík", - "idx": 73, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Breiðdalsvík", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "760", - "idx": 86, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "760", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Malawi", - "Lowercase": false, - "Template#": 3 - } - }, - { - "full_text": "My nam is Catalina", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Catalina", - "start_position": 10, - "end_position": 18 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nam", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "nam", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Catalina", - "idx": 10, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Catalina", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "Bosnia-Herzegovina", - "Lowercase": false, - "Template#": 56 - } - }, - { - "full_text": "I will be travelling to Portugal next week, so I need my passport to be ready by then", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Portugal", - "start_position": 24, - "end_position": 32 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "travelling", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "travel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Portugal", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Portugal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "next", - "idx": 33, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "week", - "idx": 38, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "week", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 42, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 44, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 47, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 49, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 54, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "passport", - "idx": 57, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "passport", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 66, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 69, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ready", - "idx": 72, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "ready", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 78, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "then", - "idx": 81, - "tag_": "RB", - "pos_": "ADV", - "dep_": "pcomp", - "lemma_": "then", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Portugal", - "Lowercase": false, - "Template#": 22 - } - }, - { - "full_text": "erick shouted at searlait: \"what are you doing here?\"", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "erick", - "start_position": 0, - "end_position": 5 - }, - { - "entity_type": "PERSON", - "entity_value": "searlait", - "start_position": 17, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "erick", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "erick", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shouted", - "idx": 6, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "shout", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 14, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "searlait", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "searlait", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 25, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 27, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 28, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 33, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 37, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "doing", - "idx": 41, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 47, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 51, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 52, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Rwanda", - "Lowercase": true, - "Template#": 122 - } - }, - { - "full_text": "What's your last name? Annear", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Annear", - "start_position": 23, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 21, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Annear", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Annear", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Nigeria", - "Lowercase": false, - "Template#": 67 - } - }, - { - "full_text": "Could you please email me the statement for laste month , my credit card number is 4929254733771086?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929254733771086", - "start_position": 83, - "end_position": 99 - } - ], - "tokens": [ - { - "text": "Could", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 10, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 17, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 26, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "laste", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "laste", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 50, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 56, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 58, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 61, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 73, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 80, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929254733771086", - "idx": 83, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "4929254733771086", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Iran", - "Lowercase": false, - "Template#": 25 - } - }, - { - "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city NOKIA: Family Toy, Edge Garden Services and Kessel Food Market. \"Don't feed me planned obsolescence,\" says Zulikhan Sheripov in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "NOKIA", - "start_position": 132, - "end_position": 137 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Family Toy", - "start_position": 139, - "end_position": 149 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Edge Garden Services", - "start_position": 151, - "end_position": 171 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Kessel Food Market", - "start_position": 176, - "end_position": 194 - }, - { - "entity_type": "PERSON", - "entity_value": "Zulikhan Sheripov", - "start_position": 239, - "end_position": 256 - } - ], - "tokens": [ - { - "text": "\"", - "idx": 0, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "ROOT", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 1, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "big", - "idx": 5, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "three", - "idx": 9, - "tag_": "CD", - "pos_": "NUM", - "dep_": "intj", - "lemma_": "three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 14, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Big", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Three", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Killed", - "idx": 33, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "kill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Baby", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Baby", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 48, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "car", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "car", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manufacturers", - "idx": 60, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "manufacturer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 74, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "dominate", - "idx": 79, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "dominate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 88, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "economy", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "economy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "White", - "idx": 107, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "White", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stripes", - "idx": 113, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Stripes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 120, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "home", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "city", - "idx": 127, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "city", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "NOKIA", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "NOKIA", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 137, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Family", - "idx": 139, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Toy", - "idx": 146, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Toy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 149, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Edge", - "idx": 151, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Edge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Garden", - "idx": 156, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Garden", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Services", - "idx": 163, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Services", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 172, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kessel", - "idx": 176, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Kessel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Food", - "idx": 183, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Food", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Market", - "idx": 188, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Market", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 194, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 196, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Do", - "idx": 197, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 199, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "feed", - "idx": 203, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "feed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 208, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "planned", - "idx": 211, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "plan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "obsolescence", - "idx": 219, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "obsolescence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 231, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 232, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "says", - "idx": 234, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zulikhan", - "idx": 239, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zulikhan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sheripov", - "idx": 248, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Sheripov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 257, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 260, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "uncharacteristically", - "idx": 263, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "uncharacteristically", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "political", - "idx": 284, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "political", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 294, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 298, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lamenting", - "idx": 300, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lament", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 310, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "demise", - "idx": 314, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "demise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 321, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 324, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unions", - "idx": 328, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "union", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 335, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 338, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "60s", - "idx": 342, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "60", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 345, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "South Africa", - "Lowercase": false, - "Template#": 112 - } - }, - { - "full_text": "What's your credit card? 5408874333937576", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5408874333937576", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 23, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5408874333937576", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "ROOT", - "lemma_": "5408874333937576", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Middle-East", - "Lowercase": false, - "Template#": 65 - } - }, - { - "full_text": "Jean is very reliable. You can always depend on him.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Jean", - "start_position": 0, - "end_position": 4 - } - ], - "tokens": [ - { - "text": "Jean", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jean", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 8, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reliable", - "idx": 13, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "reliable", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 21, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 27, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "always", - "idx": 31, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "always", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "depend", - "idx": 38, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "depend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 45, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "him", - "idx": 48, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 51, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "Lithuania", - "Lowercase": false, - "Template#": 88 - } - }, - { - "full_text": "Mie is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mie", - "start_position": 0, - "end_position": 3 - } - ], - "tokens": [ - { - "text": "Mie", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Mie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 9, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 32, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 34, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 36, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 39, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 44, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 46, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 51, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Kurdistan", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "Guatemala was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Guatemala", - "start_position": 0, - "end_position": 9 - } - ], - "tokens": [ - { - "text": "Guatemala", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Guatemala", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 10, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 24, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 27, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 32, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Greenland", - "Country": "Guatemala", - "Lowercase": false, - "Template#": 24 - } - }, - { - "full_text": "I have lost my card 5150741044143598. Could you please block my credit card ASAP ? , My name is Leevi Hasti.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5150741044143598", - "start_position": 20, - "end_position": 36 - }, - { - "entity_type": "PERSON", - "entity_value": "Leevi Hasti", - "start_position": 96, - "end_position": 107 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5150741044143598", - "idx": 20, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5150741044143598", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 48, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 55, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 61, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ASAP", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advmod", - "lemma_": "ASAP", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 85, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 88, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 93, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leevi", - "idx": 96, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Leevi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hasti", - "idx": 102, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Hasti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 107, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Niger", - "Lowercase": false, - "Template#": 10 - } - }, - { - "full_text": "Marisa shouted at Martin: \"What are you doing here?\"", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Marisa", - "start_position": 0, - "end_position": 6 - }, - { - "entity_type": "PERSON", - "entity_value": "Martin", - "start_position": 18, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "Marisa", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Marisa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shouted", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "shout", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Martin", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Martin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 24, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 26, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 27, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 32, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 36, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "doing", - "idx": 40, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 46, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 50, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 51, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Lebanon", - "Lowercase": false, - "Template#": 122 - } - }, - { - "full_text": "WHAT ??? I DONT KNOW WHAT TO PRESS NEXT!!! ? !! ?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "WHAT", - "idx": 0, - "tag_": "WDT", - "pos_": "DET", - "dep_": "ROOT", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 5, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 6, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 7, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "DONT", - "idx": 11, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "dont", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "KNOW", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "dobj", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "WHAT", - "idx": 21, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TO", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PRESS", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "press", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "NEXT", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 41, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 48, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Uk", - "Lowercase": false, - "Template#": 34 - } - }, - { - "full_text": "I want to increase limit on my card # 5361238925377564 for certain duration of time. is it possible?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5361238925377564", - "start_position": 38, - "end_position": 54 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "increase", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "increase", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 28, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 36, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5361238925377564", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "5361238925377564", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 55, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "certain", - "idx": 59, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "certain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "duration", - "idx": 67, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "duration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "time", - "idx": 79, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "time", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 83, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 85, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 88, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "possible", - "idx": 91, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "possible", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Australia", - "Lowercase": false, - "Template#": 0 - } - }, - { - "full_text": "Sometimes people call me Giovanna", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Giovanna", - "start_position": 25, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "Sometimes", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sometimes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "people", - "idx": 10, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "people", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 17, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Giovanna", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "Giovanna", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Uruguay", - "Lowercase": false, - "Template#": 74 - } - }, - { - "full_text": "Need to see last 10 transaction of card 5114430119534676", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5114430119534676", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10", - "idx": 17, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transaction", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5114430119534676", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5114430119534676", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Croatian", - "Country": "Yemen", - "Lowercase": false, - "Template#": 9 - } - }, - { - "full_text": "Anes Ivarsson from John F. Lawhon is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Anes Ivarsson", - "start_position": 0, - "end_position": 13 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "John F. Lawhon", - "start_position": 19, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "Anes", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Anes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ivarsson", - "idx": 5, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Ivarsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 14, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "John", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "John", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "F.", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "F.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lawhon", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Lawhon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 34, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 37, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 41, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Turkey", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "My card 5575150694585602 expires soon � when will I get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5575150694585602", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5575150694585602", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5575150694585602", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hispanic", - "Country": "Andorra", - "Lowercase": false, - "Template#": 14 - } - }, - { - "full_text": "Spartacus is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Spartacus", - "start_position": 0, - "end_position": 9 - } - ], - "tokens": [ - { - "text": "Spartacus", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Spartacus", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 10, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 13, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 15, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 40, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 42, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 45, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 50, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 52, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 57, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Malta", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "I once lived in 52 Broomfield Place, STONEHOUSE NE496LA. I now live in 2858 Pearlman Avenue, Billerica 01821", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "52 Broomfield Place, STONEHOUSE NE496LA", - "start_position": 16, - "end_position": 55 - }, - { - "entity_type": "LOCATION", - "entity_value": "2858 Pearlman Avenue, Billerica 01821", - "start_position": 71, - "end_position": 108 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "52", - "idx": 16, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "52", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Broomfield", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Broomfield", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Place", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 35, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "STONEHOUSE", - "idx": 37, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "STONEHOUSE", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "NE496LA", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "NE496LA", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 55, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 59, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 63, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2858", - "idx": 71, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2858", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pearlman", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Pearlman", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Avenue", - "idx": 85, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Avenue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 91, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Billerica", - "idx": 93, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Billerica", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "01821", - "idx": 103, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "01821", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Senegal", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "My nam is Leif", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Leif", - "start_position": 10, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nam", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "nam", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leif", - "idx": 10, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Leif", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "Saudi Arabia", - "Lowercase": false, - "Template#": 56 - } - }, - { - "full_text": "have you heard Leah Mitchell speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Leah Mitchell", - "start_position": 15, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leah", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Leah", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mitchell", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Mitchell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 29, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Scottish", - "Country": "Tajikistan", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "From the film American graffiti (also features Keijo Hänninen. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Keijo Hänninen", - "start_position": 47, - "end_position": 61 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Keijo", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Keijo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hänninen", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Hänninen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 61, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 63, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 67, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 70, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 74, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 77, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Tanzania", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "How do I change the address linked to my credit card to Kringlan 66, Reykjavík 107?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Kringlan 66, Reykjavík 107", - "start_position": 56, - "end_position": 82 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "linked", - "idx": 28, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "link", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 38, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 48, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 53, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kringlan", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Kringlan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "66", - "idx": 65, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "66", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 67, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Reykjavík", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Reykjavík", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "107", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "107", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 82, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "Turkey", - "Lowercase": false, - "Template#": 19 - } - }, - { - "full_text": "The name in the account is not correct, please change it to Alexandra Dalgety", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Alexandra Dalgety", - "start_position": 60, - "end_position": 77 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 9, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 24, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 27, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 31, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 40, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 47, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 54, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Alexandra", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Alexandra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dalgety", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Dalgety", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Belgium", - "Lowercase": false, - "Template#": 46 - } - }, - { - "full_text": "From the film American graffiti (also features Helena Carlsen. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Helena Carlsen", - "start_position": 47, - "end_position": 61 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Helena", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Helena", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carlsen", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Carlsen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 61, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 63, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 67, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 70, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 74, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 77, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "India", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "I once lived in Plattenstrasse 33, Randa 3928. I now live in Ramselsesteenweg 328, Lillo 2040", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Plattenstrasse 33, Randa 3928", - "start_position": 16, - "end_position": 45 - }, - { - "entity_type": "LOCATION", - "entity_value": "Ramselsesteenweg 328, Lillo 2040", - "start_position": 61, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Plattenstrasse", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Plattenstrasse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "33", - "idx": 31, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "33", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 33, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Randa", - "idx": 35, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Randa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3928", - "idx": 41, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3928", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 47, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 49, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 53, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 58, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ramselsesteenweg", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ramselsesteenweg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "328", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "328", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 81, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lillo", - "idx": 83, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Lillo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2040", - "idx": 89, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2040", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "My IBAN is IL270126100000000544211", - "masked": null, - "spans": [ - { - "entity_type": "IBAN", - "entity_value": "IL270126100000000544211", - "start_position": 11, - "end_position": 34 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IBAN", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "IBAN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IL270126100000000544211", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "IL270126100000000544211", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-IBAN" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Jordan", - "Lowercase": false, - "Template#": 79 - } - }, - { - "full_text": "you said your email is yahyaeriksson@gustr.com. is that correct?", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "yahyaeriksson@gustr.com", - "start_position": 23, - "end_position": 46 - } - ], - "tokens": [ - { - "text": "you", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 4, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 20, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yahyaeriksson@gustr.com", - "idx": 23, - "tag_": "ADD", - "pos_": "X", - "dep_": "attr", - "lemma_": "yahyaeriksson@gustr.com", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 48, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 51, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 56, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 63, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Kurdistan", - "Lowercase": true, - "Template#": 60 - } - }, - { - "full_text": "Will my account stay active? It's under my partner's name Hana Bláhová", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Hana Bláhová", - "start_position": 58, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "Will", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 5, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stay", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "stay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "active", - "idx": 21, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "active", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 31, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "partner", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "partner", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 50, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 53, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hana", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Hana", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bláhová", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Bláhová", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Namibia", - "Lowercase": false, - "Template#": 39 - } - }, - { - "full_text": "How can we reach you? You can call 907-882-3534", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "907-882-3534", - "start_position": 35, - "end_position": 47 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reach", - "idx": 11, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "reach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 20, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 26, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 30, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "907", - "idx": 35, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "907", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 38, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "882", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "882", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 42, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3534", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "3534", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Thailand", - "Lowercase": false, - "Template#": 68 - } - }, - { - "full_text": "card number 5396108709524468 is lost, can you please send a new one to Lääne 64, Liivaküla 46218 i am in Liivaküla for a business trip", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5396108709524468", - "start_position": 12, - "end_position": 28 - }, - { - "entity_type": "LOCATION", - "entity_value": "Lääne 64, Liivaküla 46218", - "start_position": 71, - "end_position": 96 - }, - { - "entity_type": "LOCATION", - "entity_value": "Liivaküla", - "start_position": 105, - "end_position": 114 - } - ], - "tokens": [ - { - "text": "card", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5396108709524468", - "idx": 12, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5396108709524468", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 32, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 36, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 46, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lääne", - "idx": 71, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advcl", - "lemma_": "Lääne", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "64", - "idx": 77, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "64", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 79, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Liivaküla", - "idx": 81, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Liivaküla", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "46218", - "idx": 91, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "46218", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 97, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "am", - "idx": 99, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 102, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Liivaküla", - "idx": 105, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Liivaküla", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 115, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 119, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "business", - "idx": 121, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "trip", - "idx": 130, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "trip", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "South-America", - "Lowercase": false, - "Template#": 29 - } - }, - { - "full_text": "The true gender of Innocent has been under debate for years, but the riff and building energy is a rock masterpiece regardless.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Innocent", - "start_position": 19, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "true", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "true", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gender", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "gender", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Innocent", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Innocent", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 28, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 32, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 37, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "debate", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "debate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "years", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 59, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 61, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 65, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "riff", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "riff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 74, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "building", - "idx": 78, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "building", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "energy", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "energy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 94, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 97, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rock", - "idx": 99, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rock", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masterpiece", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "masterpiece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regardless", - "idx": 116, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "regardless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 126, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Tajikistan", - "Lowercase": false, - "Template#": 94 - } - }, - { - "full_text": "On 29 March 2017, the Bosnian government formally began the process of withdrawal by invoking Article 50 of the Treaty on European Union", - "masked": null, - "spans": [ - { - "entity_type": "NATIONALITY", - "entity_value": "Bosnian", - "start_position": 22, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "On", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "29", - "idx": 3, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "29", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "March", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "March", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2017", - "idx": 12, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2017", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 16, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bosnian", - "idx": 22, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "bosnian", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "government", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "government", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "formally", - "idx": 41, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "formally", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "began", - "idx": 50, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "begin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 56, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "process", - "idx": 60, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "process", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdrawal", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "withdrawal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 82, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invoking", - "idx": 85, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "invoke", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Article", - "idx": 94, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Article", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "50", - "idx": 102, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "50", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 105, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 108, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Treaty", - "idx": 112, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Treaty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "European", - "idx": 122, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "European", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Union", - "idx": 131, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Union", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-NATIONALITY", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "Fiji", - "Lowercase": false, - "Template#": 121 - } - }, - { - "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "CAN", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "CAN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SPEAK", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TO", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 15, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "REAL", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "real", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PERSON", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 28, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 30, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Malawi", - "Lowercase": false, - "Template#": 44 - } - }, - { - "full_text": "Bot: What's the name on the account? User: Samira Panina", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Samira Panina", - "start_position": 43, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Bot", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 3, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 5, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 9, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 24, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "User", - "idx": 37, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 41, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Samira", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Samira", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Panina", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Panina", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Senegal", - "Lowercase": false, - "Template#": 42 - } - }, - { - "full_text": "The Home Centers Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Dominica", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Home Centers", - "start_position": 4, - "end_position": 16 - }, - { - "entity_type": "LOCATION", - "entity_value": "Dominica", - "start_position": 166, - "end_position": 174 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Home", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Centers", - "idx": 9, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Centers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Orchestra", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubjpass", - "lemma_": "Orchestra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 27, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founded", - "idx": 31, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "found", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1929", - "idx": 42, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1929", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Since", - "idx": 48, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "since", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "then", - "idx": 54, - "tag_": "RB", - "pos_": "ADV", - "dep_": "pcomp", - "lemma_": "then", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 58, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 60, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TSO", - "idx": 64, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "TSO", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 68, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 72, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 78, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 83, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "volunteer", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "volunteer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "community", - "idx": 95, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "community", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "orchestra", - "idx": 105, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "orchestra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 115, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 118, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fully", - "idx": 120, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "fully", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "professional", - "idx": 126, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "professional", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "orchestra", - "idx": 139, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "orchestra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serving", - "idx": 149, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Southern", - "idx": 157, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Southern", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dominica", - "idx": 166, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Dominica", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Dominica", - "Lowercase": false, - "Template#": 115 - } - }, - { - "full_text": "What is the limit for card 4539339028467490?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4539339028467490", - "start_position": 27, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 8, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4539339028467490", - "idx": 27, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4539339028467490", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Maldives", - "Lowercase": false, - "Template#": 54 - } - }, - { - "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Sandra Bayer's Cautionary Tales. Is there a better example of unbridled creativity than early Bayer?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Sandra Bayer", - "start_position": 124, - "end_position": 136 - }, - { - "entity_type": "PERSON", - "entity_value": "Bayer", - "start_position": 218, - "end_position": 223 - } - ], - "tokens": [ - { - "text": "When", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 10, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 14, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "singing", - "idx": 18, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "singe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hobbits", - "idx": 32, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Hobbits", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "satanic", - "idx": 41, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "satanic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "felines", - "idx": 49, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "feline", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 57, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "interstellar", - "idx": 61, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "interstellar", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "journeys", - "idx": 74, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "journey", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 82, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 84, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 89, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "singing", - "idx": 94, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "singe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 102, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 108, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verses", - "idx": 112, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sandra", - "idx": 124, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sandra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bayer", - "idx": 131, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Bayer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 136, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cautionary", - "idx": 139, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "cautionary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tales", - "idx": 150, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Tales", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 155, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Is", - "idx": 157, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 160, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 166, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "better", - "idx": 168, - "tag_": "JJR", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "well", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 175, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 183, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unbridled", - "idx": 186, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "unbridled", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "creativity", - "idx": 196, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "creativity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "than", - "idx": 207, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "than", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "early", - "idx": 212, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bayer", - "idx": 218, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Bayer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 223, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Azerbaijan", - "Lowercase": false, - "Template#": 101 - } - }, - { - "full_text": "What is procedure to redeem points won on credit card 5362422858009589 transactions ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5362422858009589", - "start_position": 54, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "procedure", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "procedure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 18, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "redeem", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "redeem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 28, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "won", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "win", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5362422858009589", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5362422858009589", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transactions", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "North Korea", - "Lowercase": false, - "Template#": 13 - } - }, - { - "full_text": "Who's coming to Germany with me?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Germany", - "start_position": 16, - "end_position": 23 - } - ], - "tokens": [ - { - "text": "Who", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "who", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 3, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "coming", - "idx": 6, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "come", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Germany", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Germany", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 24, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "Germany", - "Lowercase": false, - "Template#": 23 - } - }, - { - "full_text": "On Cue is the brainchild of our 3 founders: Leidy Muris, Aston Lind and Wacława Sobczak. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "On Cue", - "start_position": 0, - "end_position": 6 - }, - { - "entity_type": "PERSON", - "entity_value": "Leidy Muris", - "start_position": 44, - "end_position": 55 - }, - { - "entity_type": "PERSON", - "entity_value": "Aston Lind", - "start_position": 57, - "end_position": 67 - }, - { - "entity_type": "PERSON", - "entity_value": "Wacława Sobczak", - "start_position": 72, - "end_position": 87 - } - ], - "tokens": [ - { - "text": "On", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cue", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Cue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brainchild", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "brainchild", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 28, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3", - "idx": 32, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founders", - "idx": 34, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "founder", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 42, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leidy", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Leidy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Muris", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Muris", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 55, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Aston", - "idx": 57, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Aston", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lind", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Lind", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 68, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Wacława", - "idx": 72, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Wacława", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sobczak", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Sobczak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 87, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 89, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 99, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "born", - "idx": 103, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 108, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 112, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beach", - "idx": 116, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 121, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 123, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 129, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 134, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "constructing", - "idx": 139, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "construct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 152, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 154, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 162, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 165, - "tag_": "VB", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 168, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "basis", - "idx": 172, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "basis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 178, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "another", - "idx": 181, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "another", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "start", - "idx": 189, - "tag_": "VB", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "start", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 194, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 195, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 198, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 202, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Liechtenstein", - "Lowercase": false, - "Template#": 117 - } - }, - { - "full_text": "can i withdraw cash using my card 5560986528159420 at atm center ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5560986528159420", - "start_position": 34, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdraw", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "withdraw", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cash", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "cash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "using", - "idx": 20, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "use", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 26, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5560986528159420", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5560986528159420", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "atm", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "atm", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "center", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "center", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 65, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Mexico", - "Lowercase": true, - "Template#": 18 - } - }, - { - "full_text": "Houžvičková spent a year at Eli Moore Inc as the assistant to Květoslava Houžvičková, and the following year at The White Rabbit in Halfway House, which later became Integra Wealth Planners in 1965.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Houžvičková", - "start_position": 0, - "end_position": 11 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Eli Moore Inc", - "start_position": 28, - "end_position": 41 - }, - { - "entity_type": "PERSON", - "entity_value": "Květoslava Houžvičková", - "start_position": 62, - "end_position": 84 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "The White Rabbit", - "start_position": 112, - "end_position": 128 - }, - { - "entity_type": "LOCATION", - "entity_value": "Halfway House", - "start_position": 132, - "end_position": 145 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Integra Wealth Planners", - "start_position": 166, - "end_position": 189 - } - ], - "tokens": [ - { - "text": "Houžvičková", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Houžvičková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "spent", - "idx": 12, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "spend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Eli", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Eli", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Moore", - "idx": 32, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Moore", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Inc", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Inc", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "assistant", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "assistant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 59, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Květoslava", - "idx": 62, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Květoslava", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Houžvičková", - "idx": 73, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Houžvičková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 84, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 86, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "following", - "idx": 94, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "following", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 112, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "White", - "idx": 116, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "White", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rabbit", - "idx": 122, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Rabbit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 129, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Halfway", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Halfway", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "House", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "House", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 145, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "which", - "idx": 147, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "which", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "later", - "idx": 153, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "later", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 159, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Integra", - "idx": 166, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Integra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Wealth", - "idx": 174, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Wealth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Planners", - "idx": 181, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Planners", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 190, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1965", - "idx": 193, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1965", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 197, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Rwanda", - "Lowercase": false, - "Template#": 123 - } - }, - { - "full_text": "What are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Romania", - "Lowercase": false, - "Template#": 40 - } - }, - { - "full_text": "the jolly farmer is the brainchild of our 3 founders: george schutt, daniela jager and zahra mattsson. the idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "the jolly farmer", - "start_position": 0, - "end_position": 16 - }, - { - "entity_type": "PERSON", - "entity_value": "george schutt", - "start_position": 54, - "end_position": 67 - }, - { - "entity_type": "PERSON", - "entity_value": "daniela jager", - "start_position": 69, - "end_position": 82 - }, - { - "entity_type": "PERSON", - "entity_value": "zahra mattsson", - "start_position": 87, - "end_position": 101 - } - ], - "tokens": [ - { - "text": "the", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jolly", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "jolly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "farmer", - "idx": 10, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "farmer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 17, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 20, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brainchild", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "brainchild", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 38, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3", - "idx": 42, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founders", - "idx": 44, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "founder", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 52, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "george", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "george", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "schutt", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "schutt", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 67, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "daniela", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "daniela", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jager", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "jager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 83, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "zahra", - "idx": 87, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "zahra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mattsson", - "idx": 93, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "mattsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 101, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 103, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 104, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 108, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 113, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "born", - "idx": 117, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 122, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 123, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 126, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beach", - "idx": 130, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 135, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 137, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 143, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 148, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "constructing", - "idx": 153, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "construct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 166, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 168, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 176, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 179, - "tag_": "VB", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 182, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "basis", - "idx": 186, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "basis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 192, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "another", - "idx": 195, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "another", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "start", - "idx": 203, - "tag_": "VB", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "start", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 208, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 209, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 212, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 216, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "California", - "Lowercase": true, - "Template#": 117 - } - }, - { - "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Petosino: Steak And Ale, Rainbow Life and Hudson'S Menswear. \"Don't feed me planned obsolescence,\" says Sarah Friis in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Petosino", - "start_position": 132, - "end_position": 140 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Steak And Ale", - "start_position": 142, - "end_position": 155 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Rainbow Life", - "start_position": 157, - "end_position": 169 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Hudson'S Menswear", - "start_position": 174, - "end_position": 191 - }, - { - "entity_type": "PERSON", - "entity_value": "Sarah Friis", - "start_position": 236, - "end_position": 247 - } - ], - "tokens": [ - { - "text": "\"", - "idx": 0, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "ROOT", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 1, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "big", - "idx": 5, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "three", - "idx": 9, - "tag_": "CD", - "pos_": "NUM", - "dep_": "intj", - "lemma_": "three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 14, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Big", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Three", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Killed", - "idx": 33, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "kill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Baby", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Baby", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 48, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "car", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "car", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manufacturers", - "idx": 60, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "manufacturer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 74, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "dominate", - "idx": 79, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "dominate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 88, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "economy", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "economy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "White", - "idx": 107, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "White", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stripes", - "idx": 113, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Stripes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 120, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "home", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "city", - "idx": 127, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "city", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Petosino", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Petosino", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 140, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Steak", - "idx": 142, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Steak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "And", - "idx": 148, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ale", - "idx": 152, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Ale", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 155, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rainbow", - "idx": 157, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rainbow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Life", - "idx": 165, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Life", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 170, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hudson", - "idx": 174, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Hudson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 180, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "'S", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Menswear", - "idx": 183, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Menswear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 191, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 193, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Do", - "idx": 194, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 196, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "feed", - "idx": 200, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "feed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 205, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "planned", - "idx": 208, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "plan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "obsolescence", - "idx": 216, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "obsolescence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 228, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 229, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "says", - "idx": 231, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sarah", - "idx": 236, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sarah", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Friis", - "idx": 242, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Friis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 248, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 251, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "uncharacteristically", - "idx": 254, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "uncharacteristically", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "political", - "idx": 275, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "political", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 285, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 289, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lamenting", - "idx": 291, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lament", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 301, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "demise", - "idx": 305, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "demise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 312, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 315, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unions", - "idx": 319, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "union", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 326, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 329, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "60s", - "idx": 333, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "60", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 336, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Honduras", - "Lowercase": false, - "Template#": 112 - } - }, - { - "full_text": "I'm originally from Africa", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Africa", - "start_position": 20, - "end_position": 26 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "originally", - "idx": 4, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "originally", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Africa", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Africa", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Africa", - "Lowercase": false, - "Template#": 21 - } - }, - { - "full_text": "Need to see last 10 transaction of card 5146382051951404", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5146382051951404", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10", - "idx": 17, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transaction", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5146382051951404", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5146382051951404", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "Namibia", - "Lowercase": false, - "Template#": 9 - } - }, - { - "full_text": "Maryam Arsanukayev from Omni Tech Solutions is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Maryam Arsanukayev", - "start_position": 0, - "end_position": 18 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Omni Tech Solutions", - "start_position": 24, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "Maryam", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Maryam", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Arsanukayev", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Arsanukayev", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 19, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Omni", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Omni", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tech", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Tech", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Solutions", - "idx": 34, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Solutions", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 44, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 47, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 51, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 59, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Gambia", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "This song by ex-Zombie MacMahon is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "MacMahon", - "start_position": 23, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "MacMahon", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "MacMahon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 32, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 35, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 37, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 45, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 53, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 56, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 64, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 70, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 74, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 86, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 89, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 93, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 99, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 102, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 111, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 113, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 116, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 125, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 131, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 134, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 139, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 144, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 149, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 156, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 159, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 162, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 169, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 172, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 174, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 178, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 180, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 185, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 189, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 195, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 200, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 202, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Romania", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid,\" according to the Exact Solutions website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Exact Solutions", - "start_position": 257, - "end_position": 272 - } - ], - "tokens": [ - { - "text": "Mission", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mission", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Statement", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 17, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "This", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "non", - "idx": 24, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "non", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "profit", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "profit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founded", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "found", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 43, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "radio", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "radio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "executives", - "idx": 52, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "executive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 63, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serves", - "idx": 64, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 71, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "advocate", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "advocate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 86, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "value", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "value", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 108, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 110, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 114, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "supports", - "idx": 115, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "support", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 124, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 128, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 139, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "composers", - "idx": 141, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "composer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 151, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "publishers", - "idx": 155, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "publisher", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 166, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taking", - "idx": 169, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "care", - "idx": 176, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "care", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 181, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 184, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "important", - "idx": 187, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "important", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aspect", - "idx": 197, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "aspect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 204, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "their", - "idx": 207, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "careers", - "idx": 213, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "career", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 221, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "aux", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 223, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 225, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "auxpass", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "paid", - "idx": 233, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 237, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 238, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "according", - "idx": 240, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "prep", - "lemma_": "accord", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 250, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 253, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Exact", - "idx": 257, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Exact", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Solutions", - "idx": 263, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Solutions", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 273, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 280, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "They", - "idx": 282, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "offer", - "idx": 287, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "offer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blanket", - "idx": 293, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "blanket", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 301, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "licenses", - "idx": 307, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "license", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 316, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "businesses", - "idx": 319, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 330, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "organizations", - "idx": 334, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "organization", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 348, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 353, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "them", - "idx": 359, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 364, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "play", - "idx": 367, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "play", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nearly", - "idx": 372, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "nearly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "13", - "idx": 379, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "13", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 382, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 390, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "works", - "idx": 398, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 403, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Saudi Arabia", - "Lowercase": false, - "Template#": 114 - } - }, - { - "full_text": "I would like to remove my kid Ryley from the will. How do I do that?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ryley", - "start_position": 30, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "remove", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "remove", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kid", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "kid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ryley", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Ryley", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 41, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 45, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "How", - "idx": 51, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 55, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 58, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 60, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Hungary", - "Lowercase": false, - "Template#": 45 - } - }, - { - "full_text": "You said your email is VictorAndreyev@cuvox.de. Is that correct?", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "VictorAndreyev@cuvox.de", - "start_position": 23, - "end_position": 46 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 4, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 20, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "VictorAndreyev@cuvox.de", - "idx": 23, - "tag_": "ADD", - "pos_": "X", - "dep_": "attr", - "lemma_": "victorandreyev@cuvox.de", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Is", - "idx": 48, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 51, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 56, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 63, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Israel", - "Lowercase": false, - "Template#": 60 - } - }, - { - "full_text": "My IBAN is IL270126100000000544211", - "masked": null, - "spans": [ - { - "entity_type": "IBAN", - "entity_value": "IL270126100000000544211", - "start_position": 11, - "end_position": 34 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IBAN", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "IBAN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IL270126100000000544211", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "IL270126100000000544211", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-IBAN" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Vatican City", - "Lowercase": false, - "Template#": 79 - } - }, - { - "full_text": "Unlike the Raisová novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Raisová", - "start_position": 11, - "end_position": 18 - } - ], - "tokens": [ - { - "text": "Unlike", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "unlike", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Raisová", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Raisová", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "novel", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "novel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 24, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 26, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 28, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 31, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "necrophilia", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "necrophilia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 54, - "tag_": "WP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 59, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 62, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 65, - "tag_": "IN", - "pos_": "ADP", - "dep_": "acomp", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 70, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 72, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "suppose", - "idx": 74, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 82, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "anyone", - "idx": 85, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "anyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 91, - "tag_": "POS", - "pos_": "PART", - "dep_": "auxpass", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "guess", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "guess", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 101, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brilliant", - "idx": 103, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "brilliant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "piece", - "idx": 113, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "piece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "baroque", - "idx": 122, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "baroque", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pop", - "idx": 130, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "pop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 133, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Belgium", - "Lowercase": false, - "Template#": 96 - } - }, - { - "full_text": "I've shared files with you ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 27, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'ve", - "idx": 1, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shared", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "files", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "file", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Yugoslavia", - "Lowercase": false, - "Template#": 80 - } - }, - { - "full_text": "Bot: What's the name on the account? User: Ludvig Rosing", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ludvig Rosing", - "start_position": 43, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Bot", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 3, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 5, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 9, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 24, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "User", - "idx": 37, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 41, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ludvig", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ludvig", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rosing", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Rosing", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Greenland", - "Country": "Algeria", - "Lowercase": false, - "Template#": 42 - } - }, - { - "full_text": "The name in the account is not correct, please change it to Philip Jessen", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Philip Jessen", - "start_position": 60, - "end_position": 73 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 9, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 24, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 27, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 31, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 40, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 47, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 54, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Philip", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Philip", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jessen", - "idx": 67, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Jessen", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Sudan", - "Lowercase": false, - "Template#": 46 - } - }, - { - "full_text": "I want to cancel my card 5157882564763630 because I lost it", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5157882564763630", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5157882564763630", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5157882564763630", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "because", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "because", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 50, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 52, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Sri Lanka", - "Lowercase": false, - "Template#": 52 - } - }, - { - "full_text": "zoolander is a 2001 american action-comedy film directed by temirbek masaev and starring masaev", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "temirbek masaev", - "start_position": 60, - "end_position": 75 - }, - { - "entity_type": "PERSON", - "entity_value": "masaev", - "start_position": 89, - "end_position": 95 - } - ], - "tokens": [ - { - "text": "zoolander", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "zoolander", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 10, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 13, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2001", - "idx": 15, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2001", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "american", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "action", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "action", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 35, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "comedy", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "comedy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "directed", - "idx": 48, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "direct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "temirbek", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "temirbek", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masaev", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "masaev", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 76, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "starring", - "idx": 80, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "star", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masaev", - "idx": 89, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "masaev", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Dominica", - "Lowercase": true, - "Template#": 119 - } - }, - { - "full_text": "I once lived in 1541 Wit Rd, Johannesburg 2051. I now live in Avenida Noruega 42, Vila Real 5000-047", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "1541 Wit Rd, Johannesburg 2051", - "start_position": 16, - "end_position": 46 - }, - { - "entity_type": "LOCATION", - "entity_value": "Avenida Noruega 42, Vila Real 5000-047", - "start_position": 62, - "end_position": 100 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1541", - "idx": 16, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1541", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Wit", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Wit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rd", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Rd", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Johannesburg", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Johannesburg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2051", - "idx": 42, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2051", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 48, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 50, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 54, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 59, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Avenida", - "idx": 62, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Avenida", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Noruega", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Noruega", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "42", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "42", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 80, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Vila", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Vila", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Real", - "idx": 87, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "amod", - "lemma_": "Real", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5000", - "idx": 92, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5000", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 96, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "047", - "idx": 97, - "tag_": "CD", - "pos_": "NUM", - "dep_": "ROOT", - "lemma_": "047", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Japan", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "Hello I moved, please update my new address is Via Torino 24, Bobbio 29022", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Via Torino 24, Bobbio 29022", - "start_position": 47, - "end_position": 74 - } - ], - "tokens": [ - { - "text": "Hello", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "hello", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "moved", - "idx": 8, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "move", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 13, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 15, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "update", - "idx": 22, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "update", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 44, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Via", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "prep", - "lemma_": "Via", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Torino", - "idx": 51, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Torino", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "24", - "idx": 58, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "24", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 60, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bobbio", - "idx": 62, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Bobbio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "29022", - "idx": 69, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "29022", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Us", - "Lowercase": false, - "Template#": 47 - } - }, - { - "full_text": "Please update billing addrress with Ööbiku 86, Kõrkküla 48209 for this card: 4716540377180213", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Ööbiku 86, Kõrkküla 48209", - "start_position": 36, - "end_position": 61 - }, - { - "entity_type": "CREDIT_CARD", - "entity_value": "4716540377180213", - "start_position": 77, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "update", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "update", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 14, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "bill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addrress", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "addrress", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 31, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ööbiku", - "idx": 36, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ööbiku", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "86", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "86", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 45, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kõrkküla", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Kõrkküla", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "48209", - "idx": 56, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "48209", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 62, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 66, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 75, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4716540377180213", - "idx": 77, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "4716540377180213", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Liechtenstein", - "Lowercase": false, - "Template#": 8 - } - }, - { - "full_text": "How do I check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "Panama", - "Lowercase": false, - "Template#": 15 - } - }, - { - "full_text": "Are there any charges applied for money transfer from IL270126100000000544211 to other bank accounts", - "masked": null, - "spans": [ - { - "entity_type": "IBAN", - "entity_value": "IL270126100000000544211", - "start_position": 54, - "end_position": 77 - } - ], - "tokens": [ - { - "text": "Are", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 4, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "any", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "any", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "charges", - "idx": 14, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "charge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "applied", - "idx": 22, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "apply", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 30, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "money", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "money", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 49, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IL270126100000000544211", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "IL270126100000000544211", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 78, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "other", - "idx": 81, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "other", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bank", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "bank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "accounts", - "idx": 92, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-IBAN", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "Republic Of Ireland", - "Lowercase": false, - "Template#": 5 - } - }, - { - "full_text": "Is there a better crafted pop song on this list? Ferrari and Belyakova were precision engineers.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ferrari", - "start_position": 49, - "end_position": 56 - }, - { - "entity_type": "PERSON", - "entity_value": "Belyakova", - "start_position": 61, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "Is", - "idx": 0, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 3, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 9, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "better", - "idx": 11, - "tag_": "RBR", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "better", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "crafted", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "craft", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pop", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "pop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 38, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ferrari", - "idx": 49, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Ferrari", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 57, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Belyakova", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Belyakova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 71, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "precision", - "idx": 76, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "precision", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "engineers", - "idx": 86, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "engineer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 95, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "U-PERSON", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Australia", - "Lowercase": false, - "Template#": 98 - } - }, - { - "full_text": "my card 5585347258074035 expires soon � when will i get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5585347258074035", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5585347258074035", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5585347258074035", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Israel", - "Lowercase": true, - "Template#": 14 - } - }, - { - "full_text": "Please charge my credit card. Number is 4556248225668263", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4556248225668263", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "charge", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "charge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 14, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 28, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Number", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4556248225668263", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "4556248225668263", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Canada", - "Lowercase": false, - "Template#": 63 - } - }, - { - "full_text": "I can't browse to your site, keep getting address blocked error", - "masked": null, - "spans": [ - { - "entity_type": "IP_ADDRESS", - "entity_value": "", - "start_position": 50, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ca", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 4, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "browse", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "browse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 18, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "site", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "site", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keep", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "keep", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 34, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 50, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blocked", - "idx": 51, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "error", - "idx": 59, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "error", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "America", - "Lowercase": false, - "Template#": 31 - } - }, - { - "full_text": "I have lost my card 4532964794362281. Could you please block my credit card ASAP ? , My name is Carolina Lombardi.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4532964794362281", - "start_position": 20, - "end_position": 36 - }, - { - "entity_type": "PERSON", - "entity_value": "Carolina Lombardi", - "start_position": 96, - "end_position": 113 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4532964794362281", - "idx": 20, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4532964794362281", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 48, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 55, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 61, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ASAP", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advmod", - "lemma_": "ASAP", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 85, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 88, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 93, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carolina", - "idx": 96, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Carolina", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lombardi", - "idx": 105, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Lombardi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 113, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Romania", - "Lowercase": false, - "Template#": 10 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' HarrisonBarnes@fleckens.hu", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "HarrisonBarnes@fleckens.hu", - "start_position": 59, - "end_position": 85 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "HarrisonBarnes@fleckens.hu", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "pobj", - "lemma_": "harrisonbarnes@fleckens.hu", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Moldova", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Kazakhstan. Producer Stine Kristoffersen explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Kazakhstan", - "start_position": 34, - "end_position": 44 - }, - { - "entity_type": "PERSON", - "entity_value": "Stine Kristoffersen", - "start_position": 55, - "end_position": 74 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kazakhstan", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Kazakhstan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stine", - "idx": 55, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Stine", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kristoffersen", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Kristoffersen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 75, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 85, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 88, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 93, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 95, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 97, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 98, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 101, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 105, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 111, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 120, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 123, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 131, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 133, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 138, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 144, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 148, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 153, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 155, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 161, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 164, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 169, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 173, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 177, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 179, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 182, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 185, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 187, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 190, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 194, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 199, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 209, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 215, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 218, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 222, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 227, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 229, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 234, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 239, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 243, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 246, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 253, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 260, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 263, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 267, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 273, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 276, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 280, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 283, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 288, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 294, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 299, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 303, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 309, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 312, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 316, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 318, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 326, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 335, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 339, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 341, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 345, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 351, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 356, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 357, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Kazakhstan", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "my credit card 4716838733446249 has been lost, can i request you to block it.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4716838733446249", - "start_position": 15, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 10, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4716838733446249", - "idx": 15, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4716838733446249", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 32, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 36, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 41, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 45, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 51, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 61, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 65, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 68, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 74, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 76, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Costa Rica", - "Lowercase": true, - "Template#": 1 - } - }, - { - "full_text": "my card 5419747092685536 is expiring this month. please let me know process to it's extend validity.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5419747092685536", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5419747092685536", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5419747092685536", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expiring", - "idx": 28, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 37, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "let", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "let", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "know", - "idx": 63, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "process", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "process", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 79, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 81, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "extend", - "idx": 84, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "extend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validity", - "idx": 91, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "validity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "Portugal", - "Lowercase": true, - "Template#": 11 - } - }, - { - "full_text": "what ??? i dont know what to press next!!! ? !! ?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "what", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "ROOT", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 5, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 6, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 7, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 11, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nt", - "idx": 13, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "know", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 21, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 26, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "press", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "press", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "next", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 41, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 48, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Indonesia", - "Lowercase": true, - "Template#": 34 - } - }, - { - "full_text": "Will my account stay active? It's under my partner's name Zita Gábor", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Zita Gábor", - "start_position": 58, - "end_position": 68 - } - ], - "tokens": [ - { - "text": "Will", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 5, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stay", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "stay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "active", - "idx": 21, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "active", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 31, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "partner", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "partner", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 50, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 53, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zita", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zita", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Gábor", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Gábor", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Zambia", - "Lowercase": false, - "Template#": 39 - } - }, - { - "full_text": "I would like to stop receiving messages to 026 848 14 90", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "026 848 14 90", - "start_position": 43, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stop", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "stop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "receiving", - "idx": 21, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "receive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "messages", - "idx": 31, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "message", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "026", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "quantmod", - "lemma_": "026", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "848", - "idx": 47, - "tag_": "CD", - "pos_": "NUM", - "dep_": "quantmod", - "lemma_": "848", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 51, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "90", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "90", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Mongolia", - "Lowercase": false, - "Template#": 43 - } - }, - { - "full_text": "I work for Mervyn'S", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Mervyn'S", - "start_position": 11, - "end_position": 19 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mervyn", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mervyn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 17, - "tag_": "POS", - "pos_": "PART", - "dep_": "pobj", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "North-American", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "I work for S&W Cafeteria", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "S&W Cafeteria", - "start_position": 11, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "S&W", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "S&W", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cafeteria", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Cafeteria", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Egypt", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "Please block card no 4929921611032795", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929921611032795", - "start_position": 21, - "end_position": 37 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 13, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "no", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "no", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929921611032795", - "idx": 21, - "tag_": "CD", - "pos_": "NUM", - "dep_": "npadvmod", - "lemma_": "4929921611032795", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Togo", - "Lowercase": false, - "Template#": 53 - } - }, - { - "full_text": "I once lived in 39 Karaiskaki Sq, Ineia 8704. I now live in Fynshovedvej 33, Græsted 3230", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "39 Karaiskaki Sq, Ineia 8704", - "start_position": 16, - "end_position": 44 - }, - { - "entity_type": "LOCATION", - "entity_value": "Fynshovedvej 33, Græsted 3230", - "start_position": 60, - "end_position": 89 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "39", - "idx": 16, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "39", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Karaiskaki", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Karaiskaki", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sq", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Sq", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 32, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ineia", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Ineia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "8704", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "8704", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 46, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 48, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 52, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fynshovedvej", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Fynshovedvej", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "33", - "idx": 73, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "33", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 75, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Græsted", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Græsted", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3230", - "idx": 85, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3230", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "California", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "for my take on mr. yokoi, see guilty pleasures: 5 musicians of the 70s you're supposed to hate (but secretly love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "yokoi", - "start_position": 19, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "for", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mr", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "mr", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yokoi", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "yokoi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 24, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 26, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "guilty", - "idx": 30, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pleasures", - "idx": 37, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 46, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 48, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musicians", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 60, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 67, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 71, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 74, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "supposed", - "idx": 78, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 87, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hate", - "idx": 90, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 95, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 96, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "secretly", - "idx": 100, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 109, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 113, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Japanese (Anglicized)", - "Country": "Ukraine", - "Lowercase": true, - "Template#": 95 - } - }, - { - "full_text": "Rafaela is very reliable. You can always depend on him.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Rafaela", - "start_position": 0, - "end_position": 7 - } - ], - "tokens": [ - { - "text": "Rafaela", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Rafaela", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 11, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reliable", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "reliable", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 24, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 26, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 30, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "always", - "idx": 34, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "always", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "depend", - "idx": 41, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "depend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 48, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "him", - "idx": 51, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 54, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Vanuata", - "Lowercase": false, - "Template#": 88 - } - }, - { - "full_text": "card number 4532035534037416 is lost, can you please send a new one to Alšova 408, Pribyslav 58222 i am in Pribyslav for a business trip", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4532035534037416", - "start_position": 12, - "end_position": 28 - }, - { - "entity_type": "LOCATION", - "entity_value": "Alšova 408, Pribyslav 58222", - "start_position": 71, - "end_position": 98 - }, - { - "entity_type": "LOCATION", - "entity_value": "Pribyslav", - "start_position": 107, - "end_position": 116 - } - ], - "tokens": [ - { - "text": "card", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4532035534037416", - "idx": 12, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4532035534037416", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 32, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 36, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 46, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Alšova", - "idx": 71, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Alšova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "408", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "408", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 81, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pribyslav", - "idx": 83, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Pribyslav", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "58222", - "idx": 93, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "58222", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 99, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "am", - "idx": 101, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 104, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pribyslav", - "idx": 107, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Pribyslav", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 117, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 121, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "business", - "idx": 123, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "trip", - "idx": 132, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "trip", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Dutch", - "Country": "Suriname", - "Lowercase": false, - "Template#": 29 - } - }, - { - "full_text": "Rebeca Carvalho from Lawnscape Garden Maintenance is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Rebeca Carvalho", - "start_position": 0, - "end_position": 15 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Lawnscape Garden Maintenance", - "start_position": 21, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "Rebeca", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rebeca", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carvalho", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Carvalho", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lawnscape", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lawnscape", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Garden", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Garden", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Maintenance", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Maintenance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 50, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 53, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 57, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 65, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Rwanda", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "Jaroslav is very reliable. You can always depend on him.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Jaroslav", - "start_position": 0, - "end_position": 8 - } - ], - "tokens": [ - { - "text": "Jaroslav", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jaroslav", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 9, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 12, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reliable", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "reliable", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 25, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 27, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 31, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "always", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "always", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "depend", - "idx": 42, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "depend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 49, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "him", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 55, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Tuvali", - "Lowercase": false, - "Template#": 88 - } - }, - { - "full_text": "Szymon Walczak listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Fernanda Ricci – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Szymon Walczak", - "start_position": 0, - "end_position": 14 - }, - { - "entity_type": "PERSON", - "entity_value": "Fernanda Ricci", - "start_position": 170, - "end_position": 184 - } - ], - "tokens": [ - { - "text": "Szymon", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Szymon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Walczak", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Walczak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 15, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 22, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 26, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 33, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 57, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 64, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 68, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 72, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 76, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 82, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 85, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 95, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 103, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 104, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 106, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 108, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 109, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 114, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 118, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 121, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 125, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 128, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 129, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 131, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 135, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 138, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 153, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 159, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 165, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 167, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fernanda", - "idx": 170, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fernanda", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ricci", - "idx": 179, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ricci", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 185, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 187, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 189, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 192, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 198, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "New Zealand", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "A tribute to Fábio Barros – sadly, she wasn't impressed.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Fábio Barros", - "start_position": 13, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "A", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 2, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fábio", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fábio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Barros", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Barros", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 28, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sadly", - "idx": 30, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sadly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 35, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "she", - "idx": 37, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 41, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 44, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "impressed", - "idx": 48, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "impressed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 57, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Ukraine", - "Lowercase": false, - "Template#": 100 - } - }, - { - "full_text": "You said your email is MathiasEJespersen@armyspy.com. Is that correct?", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "MathiasEJespersen@armyspy.com", - "start_position": 23, - "end_position": 52 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 4, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 20, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "MathiasEJespersen@armyspy.com", - "idx": 23, - "tag_": "ADD", - "pos_": "X", - "dep_": "attr", - "lemma_": "mathiasejespersen@armyspy.com", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Is", - "idx": 54, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 57, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 62, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 69, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "New Zealand", - "Lowercase": false, - "Template#": 60 - } - }, - { - "full_text": "What are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "South-America", - "Lowercase": false, - "Template#": 40 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Togo. Producer Monica Monaldo explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Togo", - "start_position": 34, - "end_position": 38 - }, - { - "entity_type": "PERSON", - "entity_value": "Monica Monaldo", - "start_position": 49, - "end_position": 63 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Togo", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Togo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Monica", - "idx": 49, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Monica", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Monaldo", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Monaldo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 64, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 74, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 82, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 84, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 86, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 87, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 94, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 100, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 112, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 120, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 127, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 133, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 137, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 142, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 144, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 150, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 153, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 158, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 162, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 166, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 168, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 171, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 174, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 176, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 179, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 183, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 188, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 198, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 204, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 207, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 211, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 216, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 218, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 223, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 228, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 232, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 235, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 242, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 249, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 252, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 256, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 262, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 265, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 269, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 272, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 277, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 283, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 288, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 292, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 298, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 301, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 305, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 307, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 315, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 324, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 328, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 330, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 334, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 340, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 345, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 346, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Togo", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "Blink-182 pay tribute here to the United Arab Emirates. Producer Jaroslava Sedláčková explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "United Arab Emirates", - "start_position": 34, - "end_position": 54 - }, - { - "entity_type": "PERSON", - "entity_value": "Jaroslava Sedláčková", - "start_position": 65, - "end_position": 85 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "United", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "United", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Arab", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Arab", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Emirates", - "idx": 46, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Emirates", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 54, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jaroslava", - "idx": 65, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Jaroslava", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sedláčková", - "idx": 75, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Sedláčková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 86, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 96, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 99, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 106, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 108, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 109, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 112, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 116, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 122, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 126, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 131, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 134, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 142, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 144, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 149, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 155, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 159, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 164, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 166, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 172, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 175, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 180, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 184, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 188, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 190, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 193, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 196, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 198, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 201, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 205, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 210, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 220, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 226, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 229, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 233, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 238, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 240, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 245, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 250, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 254, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 257, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 264, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 271, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 274, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 278, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 284, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 287, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 291, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 294, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 299, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 305, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 310, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 314, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 320, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 323, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 327, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 329, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 337, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 346, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 350, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 352, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 356, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 362, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 367, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 368, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "United Arab Emirates", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "I want to cancel my card 5474048302481945 because I lost it", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5474048302481945", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5474048302481945", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5474048302481945", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "because", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "because", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 50, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 52, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Ghana", - "Lowercase": false, - "Template#": 52 - } - }, - { - "full_text": "Can I withdraw cash using my card 5150741044143598 at aTM center ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5150741044143598", - "start_position": 34, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdraw", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "withdraw", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cash", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "cash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "using", - "idx": 20, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "use", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 26, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5150741044143598", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5150741044143598", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aTM", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "punct", - "lemma_": "aTM", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "center", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "center", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 65, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Niger", - "Lowercase": false, - "Template#": 18 - } - }, - { - "full_text": "I'm originally from Mauritania", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Mauritania", - "start_position": 20, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "originally", - "idx": 4, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "originally", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mauritania", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Mauritania", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 21 - } - }, - { - "full_text": "My name is James Arnold but everyone calls me James", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "James Arnold", - "start_position": 11, - "end_position": 23 - }, - { - "entity_type": "PERSON", - "entity_value": "James", - "start_position": 46, - "end_position": 51 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "James", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "James", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Arnold", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Arnold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 24, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "everyone", - "idx": 28, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "everyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "calls", - "idx": 37, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 43, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "James", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "James", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "South-America", - "Lowercase": false, - "Template#": 58 - } - }, - { - "full_text": "The true gender of Inger has been under debate for years, but the riff and building energy is a rock masterpiece regardless.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Inger", - "start_position": 19, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "true", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "true", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gender", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "gender", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Inger", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Inger", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 29, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "debate", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "debate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 47, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "years", - "idx": 51, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 56, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 58, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 62, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "riff", - "idx": 66, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "riff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 71, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "building", - "idx": 75, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "building", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "energy", - "idx": 84, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "energy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 91, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 94, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rock", - "idx": 96, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rock", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masterpiece", - "idx": 101, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "masterpiece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regardless", - "idx": 113, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "regardless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 123, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "South Africa", - "Lowercase": false, - "Template#": 94 - } - }, - { - "full_text": "Hello, this is Professor. Mikolaj Walczak. Who are you?", - "masked": null, - "spans": [ - { - "entity_type": "TITLE", - "entity_value": "Professor.", - "start_position": 15, - "end_position": 25 - }, - { - "entity_type": "PERSON", - "entity_value": "Mikolaj Walczak", - "start_position": 26, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "Hello", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "hello", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 5, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 12, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Professor", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Professor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 24, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mikolaj", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mikolaj", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Walczak", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Walczak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 41, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Who", - "idx": 43, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "who", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 47, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 51, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 54, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-TITLE", - "L-TITLE", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Indonesia", - "Lowercase": false, - "Template#": 50 - } - }, - { - "full_text": "My card 4556528132104498 expires soon � when will I get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4556528132104498", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4556528132104498", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4556528132104498", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Panama", - "Lowercase": false, - "Template#": 14 - } - }, - { - "full_text": "Need to change billing date of my card 4539626214210951", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4539626214210951", - "start_position": 39, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "billing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4539626214210951", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4539626214210951", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Panama", - "Lowercase": false, - "Template#": 2 - } - }, - { - "full_text": "My website is ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 14, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 11, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Niger", - "Lowercase": false, - "Template#": 78 - } - }, - { - "full_text": "What is the limit for card 5293328599696176?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5293328599696176", - "start_position": 27, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 8, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5293328599696176", - "idx": 27, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5293328599696176", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Japan", - "Lowercase": false, - "Template#": 54 - } - }, - { - "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid,\" according to the Marianne website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Marianne", - "start_position": 257, - "end_position": 265 - } - ], - "tokens": [ - { - "text": "Mission", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mission", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Statement", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 17, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "This", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "non", - "idx": 24, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "non", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "profit", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "profit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founded", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "found", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 43, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "radio", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "radio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "executives", - "idx": 52, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "executive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 63, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serves", - "idx": 64, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 71, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "advocate", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "advocate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 86, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "value", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "value", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 108, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 110, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 114, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "supports", - "idx": 115, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "support", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 124, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 128, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 139, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "composers", - "idx": 141, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "composer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 151, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "publishers", - "idx": 155, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "publisher", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 166, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taking", - "idx": 169, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "care", - "idx": 176, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "care", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 181, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 184, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "important", - "idx": 187, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "important", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aspect", - "idx": 197, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "aspect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 204, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "their", - "idx": 207, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "careers", - "idx": 213, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "career", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 221, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "aux", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 223, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 225, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "auxpass", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "paid", - "idx": 233, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 237, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 238, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "according", - "idx": 240, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "prep", - "lemma_": "accord", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 250, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 253, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Marianne", - "idx": 257, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Marianne", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 266, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 273, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "They", - "idx": 275, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "offer", - "idx": 280, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "offer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blanket", - "idx": 286, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "blanket", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 294, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "licenses", - "idx": 300, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "license", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 309, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "businesses", - "idx": 312, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 323, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "organizations", - "idx": 327, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "organization", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 341, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 346, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "them", - "idx": 352, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 357, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "play", - "idx": 360, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "play", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nearly", - "idx": 365, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "nearly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "13", - "idx": 372, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "13", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 375, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 383, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "works", - "idx": 391, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 396, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Armenia", - "Lowercase": false, - "Template#": 114 - } - }, - { - "full_text": "This song by ex-Zombie Čechová is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Čechová", - "start_position": 23, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "amod", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Čechová", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Čechová", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 31, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 34, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 36, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 44, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 52, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 55, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 59, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 63, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 69, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 73, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 85, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 88, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 98, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 101, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 106, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 110, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 112, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 124, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 130, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 133, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 138, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 143, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 148, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 155, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 158, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 161, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 168, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 171, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 173, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 177, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 179, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 184, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 188, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 194, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 199, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 201, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Bosnia-Herzegovina", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "mette jeremiassen listed his top 20 songs for entertainment weekly and had the balls to list this song at #15. (what did he put at #1 you ask? answer:\"tube snake boogie\" by wacława sobczak – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "mette jeremiassen", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "PERSON", - "entity_value": "wacława sobczak", - "start_position": 173, - "end_position": 188 - } - ], - "tokens": [ - { - "text": "mette", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "mette", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jeremiassen", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "jeremiassen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 18, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 25, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 29, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 33, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 36, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "entertainment", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "weekly", - "idx": 60, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 67, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 71, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 75, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 79, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 85, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 88, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 98, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 103, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 106, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 107, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 109, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 111, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 112, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 117, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 121, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 124, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 128, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 131, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 132, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 134, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 138, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 141, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "answer:\"tube", - "idx": 143, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "answer:\"tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "snake", - "idx": 156, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boogie", - "idx": 162, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 168, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 170, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "wacława", - "idx": 173, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "wacława", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sobczak", - "idx": 181, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "sobczak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 189, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 191, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 193, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 196, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 202, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Liechtenstein", - "Lowercase": true, - "Template#": 103 - } - }, - { - "full_text": "For my take on Mr. Bermúdez, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bermúdez", - "start_position": 19, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bermúdez", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Bermúdez", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 40, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 49, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 51, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 53, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 63, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 66, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 70, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 74, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 77, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 81, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 90, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 93, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 98, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 99, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 103, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 112, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 116, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hispanic", - "Country": "Mexico", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "In Rwanda} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Petra Balatková points out, \"most are horrible\".", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Rwanda", - "start_position": 3, - "end_position": 9 - }, - { - "entity_type": "PERSON", - "entity_value": "Petra Balatková", - "start_position": 134, - "end_position": 149 - } - ], - "tokens": [ - { - "text": "In", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rwanda", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Rwanda", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "}", - "idx": 9, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "}", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 11, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 16, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "company", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "company", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 29, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 34, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 36, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expressions", - "idx": 44, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "expression", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 56, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employee", - "idx": 59, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "employee", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "loyalty", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "loyalty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sung", - "idx": 76, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "sing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 81, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "salarymen", - "idx": 84, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "salaryman", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 93, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Unfortunately", - "idx": 95, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "unfortunately", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 108, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 110, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regular", - "idx": 113, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "regular", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "RR", - "idx": 121, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rr", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "commenter", - "idx": 124, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "commenter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Petra", - "idx": 134, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Petra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Balatková", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Balatková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 150, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "out", - "idx": 157, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "out", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 160, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 162, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 163, - "tag_": "JJS", - "pos_": "ADJ", - "dep_": "nsubj", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 168, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "horrible", - "idx": 172, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "horrible", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 180, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 181, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Rwanda", - "Lowercase": false, - "Template#": 111 - } - }, - { - "full_text": "I have done an online order but didn't get any message on my registered 780-775-0277. Could you please look into it ?", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "780-775-0277", - "start_position": 72, - "end_position": 84 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "done", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "online", - "idx": 15, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "online", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 32, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 35, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 39, - "tag_": "VB", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "any", - "idx": 43, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "any", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "message", - "idx": 47, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "message", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 55, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 58, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "registered", - "idx": 61, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "registered", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "780", - "idx": 72, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "780", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 75, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "775", - "idx": 76, - "tag_": "CD", - "pos_": "NUM", - "dep_": "prep", - "lemma_": "775", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 79, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "0277", - "idx": 80, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "0277", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 86, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 92, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 96, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "look", - "idx": 103, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "look", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "into", - "idx": 108, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "into", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 113, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 116, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Venezuela", - "Lowercase": false, - "Template#": 12 - } - }, - { - "full_text": "How can I request a new credit card pin ?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pin", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Croatian", - "Country": "Jordan", - "Lowercase": false, - "Template#": 17 - } - }, - { - "full_text": "I'd like it to be sent to Dalmatinova 43, Velenje 3503", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Dalmatinova 43, Velenje 3503", - "start_position": 26, - "end_position": 54 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dalmatinova", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Dalmatinova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "43", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "43", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 40, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Velenje", - "idx": 42, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Velenje", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3503", - "idx": 50, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3503", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Japanese (Anglicized)", - "Country": "Benin", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "Please have the manager call me at 66 554 64 62 I'd like to join accounts with ms. Đoko", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "66 554 64 62", - "start_position": 35, - "end_position": 47 - }, - { - "entity_type": "PERSON", - "entity_value": "Đoko", - "start_position": 83, - "end_position": 87 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manager", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "manager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 24, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "66", - "idx": 35, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "66", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "554", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "554", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "64", - "idx": 42, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "64", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "62", - "idx": 45, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "62", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 48, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 49, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 52, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 57, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "join", - "idx": 60, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "join", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "accounts", - "idx": 65, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 74, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ms", - "idx": 79, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ms", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 81, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Đoko", - "idx": 83, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Đoko", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Pakistan", - "Lowercase": false, - "Template#": 35 - } - }, - { - "full_text": "What is procedure to redeem points won on credit card 5562658703339808 transactions ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5562658703339808", - "start_position": 54, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "procedure", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "procedure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 18, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "redeem", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "redeem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 28, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "won", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "win", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5562658703339808", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5562658703339808", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transactions", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "United Arab Emirates", - "Lowercase": false, - "Template#": 13 - } - }, - { - "full_text": "how can we reach you? you can call 789 0750", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "789 0750", - "start_position": 35, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "how", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reach", - "idx": 11, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "reach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 20, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 26, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 30, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "789", - "idx": 35, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "789", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "0750", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "oprd", - "lemma_": "0750", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "L-PHONE_NUMBER" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Saudi Arabia", - "Lowercase": true, - "Template#": 68 - } - }, - { - "full_text": "Foxmoor songwriter Mathias Ruud employs corporate lingo in the first verse of his Affinity Investment Group Resignation Letter", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Foxmoor", - "start_position": 0, - "end_position": 7 - }, - { - "entity_type": "PERSON", - "entity_value": "Mathias Ruud", - "start_position": 19, - "end_position": 31 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Affinity Investment Group", - "start_position": 82, - "end_position": 107 - } - ], - "tokens": [ - { - "text": "Foxmoor", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Foxmoor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriter", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mathias", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mathias", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ruud", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Ruud", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employs", - "idx": 32, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "employ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "corporate", - "idx": 40, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "corporate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lingo", - "idx": 50, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "lingo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 56, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 59, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 63, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verse", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 75, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 78, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Affinity", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Affinity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Investment", - "idx": 91, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Investment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Group", - "idx": 102, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Group", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Resignation", - "idx": 108, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Resignation", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Letter", - "idx": 120, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Letter", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-ORGANIZATION", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "New-York", - "Lowercase": false, - "Template#": 113 - } - }, - { - "full_text": "Celebrating its 10th year in Benningen, Datacorp is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Benningen", - "start_position": 29, - "end_position": 38 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Datacorp", - "start_position": 40, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "Celebrating", - "idx": 0, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "celebrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10th", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "10th", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Benningen", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Benningen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Datacorp", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Datacorp", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 49, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "501(c)3", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "501(c)3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 62, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invites", - "idx": 67, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "invite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 75, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 87, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "around", - "idx": 92, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Texas", - "idx": 112, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Texas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 118, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "share", - "idx": 121, - "tag_": "VB", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 127, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "universal", - "idx": 131, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "universal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "language", - "idx": 141, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "language", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 150, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 153, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 159, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "collaborations", - "idx": 162, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "collaboration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designed", - "idx": 177, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 186, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bridge", - "idx": 189, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "bridge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultures", - "idx": 196, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "culture", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 204, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "build", - "idx": 206, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "build", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "friendships", - "idx": 212, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "friendship", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 224, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultivate", - "idx": 228, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "cultivate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peace", - "idx": 238, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "peace", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 243, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "U-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "United Arab Emirates", - "Lowercase": false, - "Template#": 116 - } - }, - { - "full_text": "Uganda was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Uganda", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "Uganda", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Uganda", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 7, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 11, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 24, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Uganda", - "Lowercase": false, - "Template#": 24 - } - }, - { - "full_text": "I work for Sammy'S Record Shack", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Sammy'S Record Shack", - "start_position": 11, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sammy", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Sammy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "case", - "lemma_": "'S", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Record", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Record", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Shack", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Shack", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Syria", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "Kristian shouted at Enrico: \"What are you doing here?\"", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Kristian", - "start_position": 0, - "end_position": 8 - }, - { - "entity_type": "PERSON", - "entity_value": "Enrico", - "start_position": 20, - "end_position": 26 - } - ], - "tokens": [ - { - "text": "Kristian", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Kristian", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shouted", - "idx": 9, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "shout", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 17, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Enrico", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Enrico", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 26, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 28, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 29, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 34, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 38, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "doing", - "idx": 42, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 48, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 53, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Cameroon", - "Lowercase": false, - "Template#": 122 - } - }, - { - "full_text": "how do i check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "how", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Jamaica", - "Lowercase": true, - "Template#": 15 - } - }, - { - "full_text": "Lucas shouted at Tuomo: \"What are you doing here?\"", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Lucas", - "start_position": 0, - "end_position": 5 - }, - { - "entity_type": "PERSON", - "entity_value": "Tuomo", - "start_position": 17, - "end_position": 22 - } - ], - "tokens": [ - { - "text": "Lucas", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Lucas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shouted", - "idx": 6, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "shout", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 14, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tuomo", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Tuomo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 22, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 24, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 25, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 30, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 34, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "doing", - "idx": 38, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 44, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 48, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 49, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Solomon Islands", - "Lowercase": false, - "Template#": 122 - } - }, - { - "full_text": "my name appears incorrectly on credit card statement could you please correct it to miss jana vítková?", - "masked": null, - "spans": [ - { - "entity_type": "TITLE", - "entity_value": "miss", - "start_position": 84, - "end_position": 88 - }, - { - "entity_type": "PERSON", - "entity_value": "jana vítková", - "start_position": 89, - "end_position": 101 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "appears", - "idx": 8, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "appear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "incorrectly", - "idx": 16, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "incorrectly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 38, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 53, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 59, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 63, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 70, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 78, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 81, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "miss", - "idx": 84, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "miss", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jana", - "idx": 89, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "jana", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "vítková", - "idx": 94, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "vítková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 101, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-TITLE", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Slovakia", - "Lowercase": true, - "Template#": 28 - } - }, - { - "full_text": "I would like to remove my kid Guttormur from the will. How do I do that?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Guttormur", - "start_position": 30, - "end_position": 39 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "remove", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "remove", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kid", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "kid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guttormur", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Guttormur", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 53, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "How", - "idx": 55, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 59, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 62, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 64, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 67, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 71, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Madagascar", - "Lowercase": false, - "Template#": 45 - } - }, - { - "full_text": "inject select * from users where clinet_ip = ?%//!%20\\||%20/", - "masked": null, - "spans": [ - { - "entity_type": "IP_ADDRESS", - "entity_value": "", - "start_position": 55, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "inject", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "inject", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "select", - "idx": 7, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dobj", - "lemma_": "select", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "*", - "idx": 14, - "tag_": "NFP", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "*", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "users", - "idx": 21, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 27, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "clinet_ip", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "clinet_ip", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "=", - "idx": 43, - "tag_": "NFP", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "=", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "%", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "relcl", - "lemma_": "%", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "//!%20\\||%20/", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "//!%20\\||%20/", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Japanese (Anglicized)", - "Country": "Ukraine", - "Lowercase": true, - "Template#": 36 - } - }, - { - "full_text": "Dee'S Drive-In is the brainchild of our 3 founders: Katie Miles, Lewis Abbott and Ivan Petřík. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Dee'S Drive-In", - "start_position": 0, - "end_position": 14 - }, - { - "entity_type": "PERSON", - "entity_value": "Katie Miles", - "start_position": 52, - "end_position": 63 - }, - { - "entity_type": "PERSON", - "entity_value": "Lewis Abbott", - "start_position": 65, - "end_position": 77 - }, - { - "entity_type": "PERSON", - "entity_value": "Ivan Petřík", - "start_position": 82, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "Dee", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Dee", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "case", - "lemma_": "'S", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Drive", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Drive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 11, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "In", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 15, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brainchild", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "brainchild", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 33, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 36, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founders", - "idx": 42, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "founder", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 50, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Katie", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Katie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Miles", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Miles", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 63, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lewis", - "idx": 65, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lewis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Abbott", - "idx": 71, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Abbott", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 78, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ivan", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ivan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Petřík", - "idx": 87, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Petřík", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 93, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 95, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 96, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 100, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 105, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "born", - "idx": 109, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 114, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 115, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 118, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beach", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 127, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 129, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 135, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 140, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "constructing", - "idx": 145, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "construct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 158, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 160, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 168, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 171, - "tag_": "VB", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 174, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "basis", - "idx": 178, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "basis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 184, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "another", - "idx": 187, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "another", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "start", - "idx": 195, - "tag_": "VB", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "start", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 200, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 201, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 204, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 208, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Burkina", - "Lowercase": false, - "Template#": 117 - } - }, - { - "full_text": "Yolanda Oden will be talking in the conference", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Yolanda Oden", - "start_position": 0, - "end_position": 12 - } - ], - "tokens": [ - { - "text": "Yolanda", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Yolanda", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Oden", - "idx": 8, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Oden", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 13, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 18, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "talking", - "idx": 21, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "talk", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 29, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 32, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "conference", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "conference", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "Gambia", - "Lowercase": false, - "Template#": 90 - } - }, - { - "full_text": "My credit card 5386564038394381 has been lost, Can I request you to block it.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5386564038394381", - "start_position": 15, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 10, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5386564038394381", - "idx": 15, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5386564038394381", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 32, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 36, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 41, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 45, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Can", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 51, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 61, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 65, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 68, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 74, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 76, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Libya", - "Lowercase": false, - "Template#": 1 - } - }, - { - "full_text": "Just posted a photo ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 20, - "end_position": 20 - } - ], - "tokens": [ - { - "text": "Just", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "just", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "posted", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "post", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "photo", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "photo", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Oman", - "Lowercase": false, - "Template#": 77 - } - }, - { - "full_text": "It may be too that Weber was influenced by an earlier song, \"Carry Me Back To Ukraine,\" which was arranged and sung by Xenophon Maslov in 1847 (though Maslov's song was actually about a boat!).", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Weber", - "start_position": 19, - "end_position": 24 - }, - { - "entity_type": "LOCATION", - "entity_value": "Ukraine", - "start_position": 78, - "end_position": 85 - }, - { - "entity_type": "PERSON", - "entity_value": "Xenophon Maslov", - "start_position": 119, - "end_position": 134 - }, - { - "entity_type": "PERSON", - "entity_value": "Maslov", - "start_position": 151, - "end_position": 157 - } - ], - "tokens": [ - { - "text": "It", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "may", - "idx": 3, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "may", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "too", - "idx": 10, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "too", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 14, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weber", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubjpass", - "lemma_": "Weber", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 25, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "influenced", - "idx": 29, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "influence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 43, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "earlier", - "idx": 46, - "tag_": "JJR", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 58, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 60, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carry", - "idx": 61, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "carry", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Me", - "idx": 67, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Back", - "idx": 70, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "back", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 75, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ukraine", - "idx": 78, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ukraine", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 85, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 86, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "which", - "idx": 88, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubjpass", - "lemma_": "which", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 94, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "arranged", - "idx": 98, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "arrange", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 107, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sung", - "idx": 111, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "sing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 116, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Xenophon", - "idx": 119, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Xenophon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Maslov", - "idx": 128, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Maslov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 135, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1847", - "idx": 138, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1847", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 143, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "though", - "idx": 144, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "though", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Maslov", - "idx": 151, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Maslov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 157, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 160, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 165, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "actually", - "idx": 169, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "actually", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 178, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 184, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boat", - "idx": 186, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boat", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 190, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 191, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 192, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Ukraine", - "Lowercase": false, - "Template#": 109 - } - }, - { - "full_text": "i once lived in ul. nad jarem 22, gdańsk 80-148. i now live in freistädter strasse 61, brenndorf 9122", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "ul. nad jarem 22, gdańsk 80-148", - "start_position": 16, - "end_position": 47 - }, - { - "entity_type": "LOCATION", - "entity_value": "freistädter strasse 61, brenndorf 9122", - "start_position": 63, - "end_position": 101 - } - ], - "tokens": [ - { - "text": "i", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ul", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "ul", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 18, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nad", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "nad", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jarem", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "jarem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "22", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "22", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 32, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gdańsk", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "gdańsk", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "80", - "idx": 41, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "80", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 43, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "148", - "idx": 44, - "tag_": "CD", - "pos_": "NUM", - "dep_": "prep", - "lemma_": "148", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 49, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 51, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 55, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 60, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "freistädter", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "freistädter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "strasse", - "idx": 75, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "strasse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "61", - "idx": 83, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "61", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 85, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brenndorf", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "brenndorf", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "9122", - "idx": 97, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "9122", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Tajikistan", - "Lowercase": true, - "Template#": 61 - } - }, - { - "full_text": "What's your name? Ava Abbott", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ava Abbott", - "start_position": 18, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 16, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ava", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ava", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Abbott", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Abbott", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Greece", - "Lowercase": false, - "Template#": 66 - } - }, - { - "full_text": "The address of Platinum Interior Design is Rue du Chapy 336, Groot-Bijgaarden 1702", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Platinum Interior Design", - "start_position": 15, - "end_position": 39 - }, - { - "entity_type": "LOCATION", - "entity_value": "Rue du Chapy 336, Groot-Bijgaarden 1702", - "start_position": 43, - "end_position": 82 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Platinum", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Platinum", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Interior", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Interior", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Design", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 40, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rue", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nmod", - "lemma_": "Rue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "du", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "du", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chapy", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Chapy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "336", - "idx": 56, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "336", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 59, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Groot", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Groot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 66, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bijgaarden", - "idx": 67, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Bijgaarden", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1702", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "1702", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Middle-East", - "Lowercase": false, - "Template#": 84 - } - }, - { - "full_text": "This song by ex-Zombie Pratt is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Pratt", - "start_position": 23, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pratt", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Pratt", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 32, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 34, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 53, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 61, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 67, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 71, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 83, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 86, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 90, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 96, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 108, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 110, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 113, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 122, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 128, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 131, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 136, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 141, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 146, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 153, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 156, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 159, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 166, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 169, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 171, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 175, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 177, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 182, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 186, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 192, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 197, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 199, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "El Salvador", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "From the film American graffiti (also features Signe Carlsen. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Signe Carlsen", - "start_position": 47, - "end_position": 60 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Signe", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Signe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carlsen", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Carlsen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 60, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 62, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 66, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 69, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 73, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 76, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 80, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Middle East", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "The Stephan Sigursteinsson version recorded for Life'S Gold became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Stephan Sigursteinsson", - "start_position": 4, - "end_position": 26 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Life'S Gold", - "start_position": 48, - "end_position": 59 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stephan", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Stephan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sigursteinsson", - "idx": 12, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sigursteinsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "version", - "idx": 27, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "version", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recorded", - "idx": 35, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "record", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 44, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Life", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Life", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "case", - "lemma_": "'S", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Gold", - "idx": 55, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "gold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 60, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 67, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 71, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "celebrity", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "celebrity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recording", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "recording", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 97, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 100, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "classical", - "idx": 102, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "classical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musician", - "idx": 112, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 121, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sell", - "idx": 124, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "sell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 129, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 133, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "copies", - "idx": 141, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "copy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 147, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 149, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 153, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 158, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "awarded", - "idx": 162, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "award", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 170, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "seventh", - "idx": 174, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "seventh", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gold", - "idx": 182, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "gold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "disc", - "idx": 187, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "disc", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ever", - "idx": 192, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "ever", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "granted", - "idx": 197, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "grant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 204, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "California", - "Lowercase": false, - "Template#": 110 - } - }, - { - "full_text": "Please send my portfolio to this email ElishaFedorov@fleckens.hu", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "ElishaFedorov@fleckens.hu", - "start_position": 39, - "end_position": 64 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "portfolio", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "portfolio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 28, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ElishaFedorov@fleckens.hu", - "idx": 39, - "tag_": "ADD", - "pos_": "X", - "dep_": "appos", - "lemma_": "elishafedorov@fleckens.hu", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Croatia", - "Lowercase": false, - "Template#": 49 - } - }, - { - "full_text": "During the 1990s, Locost Accessories invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Locost Accessories", - "start_position": 18, - "end_position": 36 - } - ], - "tokens": [ - { - "text": "During", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "during", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1990s", - "idx": 11, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "1990", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 16, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Locost", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Locost", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Accessories", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Accessories", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invested", - "idx": 37, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "invest", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heavily", - "idx": 46, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "heavily", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 54, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 57, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "microprocessor", - "idx": 61, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "microprocessor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designs", - "idx": 76, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fostering", - "idx": 84, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "foster", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 94, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rapid", - "idx": 98, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "rapid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "growth", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "growth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 111, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 114, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "computer", - "idx": 118, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "computer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "industry", - "idx": 127, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "industry", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 135, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Paraguay", - "Lowercase": false, - "Template#": 120 - } - }, - { - "full_text": "It may be too that Bouvier was influenced by an earlier song, \"Carry Me Back To Scotland,\" which was arranged and sung by Nedim Hutinović in 1847 (though Hutinović's song was actually about a boat!).", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bouvier", - "start_position": 19, - "end_position": 26 - }, - { - "entity_type": "LOCATION", - "entity_value": "Scotland", - "start_position": 80, - "end_position": 88 - }, - { - "entity_type": "PERSON", - "entity_value": "Nedim Hutinović", - "start_position": 122, - "end_position": 137 - }, - { - "entity_type": "PERSON", - "entity_value": "Hutinović", - "start_position": 154, - "end_position": 163 - } - ], - "tokens": [ - { - "text": "It", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "may", - "idx": 3, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "may", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "too", - "idx": 10, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "too", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 14, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bouvier", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubjpass", - "lemma_": "Bouvier", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 27, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "influenced", - "idx": 31, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "influence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "earlier", - "idx": 48, - "tag_": "JJR", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 60, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 62, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carry", - "idx": 63, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "carry", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Me", - "idx": 69, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Back", - "idx": 72, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "back", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 77, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Scotland", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Scotland", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 88, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 89, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "which", - "idx": 91, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubjpass", - "lemma_": "which", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 97, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "arranged", - "idx": 101, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "arrange", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 110, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sung", - "idx": 114, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "sing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Nedim", - "idx": 122, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Nedim", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hutinović", - "idx": 128, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Hutinović", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 138, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1847", - "idx": 141, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1847", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 146, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "though", - "idx": 147, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "though", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hutinović", - "idx": 154, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Hutinović", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 163, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 166, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 171, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "actually", - "idx": 175, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "actually", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 184, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 190, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boat", - "idx": 192, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boat", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 196, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 197, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 198, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Scotland", - "Lowercase": false, - "Template#": 109 - } - }, - { - "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "religion", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "religion", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "does", - "idx": 12, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 17, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaking", - "idx": 27, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bots", - "idx": 39, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 43, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 50, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "evil", - "idx": 54, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "evil", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 59, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hacked", - "idx": 63, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "hack", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 70, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Devil", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Devil", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Niger", - "Lowercase": false, - "Template#": 32 - } - }, - { - "full_text": "I have done an online order but didn't get any message on my registered 60-17-51-75. Could you please look into it ?", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "60-17-51-75", - "start_position": 72, - "end_position": 83 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "done", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "online", - "idx": 15, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "online", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 32, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 35, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 39, - "tag_": "VB", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "any", - "idx": 43, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "any", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "message", - "idx": 47, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "message", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 55, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 58, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "registered", - "idx": 61, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "registered", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "60", - "idx": 72, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "60", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 74, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "17", - "idx": 75, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "17", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 77, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "51", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "51", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 80, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "75", - "idx": 81, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "75", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 83, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 85, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 91, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 95, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "look", - "idx": 102, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "look", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "into", - "idx": 107, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "into", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 112, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 115, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "Estonia", - "Lowercase": false, - "Template#": 12 - } - }, - { - "full_text": "Celebrating its 10th year in Sopot, Home Centers is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Sopot", - "start_position": 29, - "end_position": 34 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Home Centers", - "start_position": 36, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "Celebrating", - "idx": 0, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "celebrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10th", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "10th", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sopot", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Sopot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 34, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Home", - "idx": 36, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Centers", - "idx": 41, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Centers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 49, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "501(c)3", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "501(c)3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 62, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invites", - "idx": 67, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "invite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 75, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 87, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "around", - "idx": 92, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Texas", - "idx": 112, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Texas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 118, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "share", - "idx": 121, - "tag_": "VB", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 127, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "universal", - "idx": 131, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "universal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "language", - "idx": 141, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "language", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 150, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 153, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 159, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "collaborations", - "idx": 162, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "collaboration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designed", - "idx": 177, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 186, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bridge", - "idx": 189, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "bridge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultures", - "idx": 196, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "culture", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 204, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "build", - "idx": 206, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "build", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "friendships", - "idx": 212, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "friendship", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 224, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultivate", - "idx": 228, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "cultivate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peace", - "idx": 238, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "peace", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 243, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "Sunni", - "Lowercase": false, - "Template#": 116 - } - }, - { - "full_text": "My name is Ella Snider but everyone calls me Ella", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ella Snider", - "start_position": 11, - "end_position": 22 - }, - { - "entity_type": "PERSON", - "entity_value": "Ella", - "start_position": 45, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ella", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ella", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snider", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Snider", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 23, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "everyone", - "idx": 27, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "everyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "calls", - "idx": 36, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ella", - "idx": 45, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "Ella", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Scotland", - "Lowercase": false, - "Template#": 58 - } - }, - { - "full_text": "Maybe it's under Lóa Sigmundsdóttir", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Lóa Sigmundsdóttir", - "start_position": 17, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "Maybe", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "maybe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 11, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lóa", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lóa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sigmundsdóttir", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Sigmundsdóttir", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Icelandic", - "Country": "Wales", - "Lowercase": false, - "Template#": 75 - } - }, - { - "full_text": "For my take on Mr. Csonka, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Csonka", - "start_position": 19, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Csonka", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Csonka", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 25, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 27, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 38, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 47, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 49, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 51, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 61, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 64, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 68, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 72, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 75, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 79, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 88, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 91, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 96, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 97, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 101, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 110, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 114, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Estonia", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "my name is jo van gameren but everyone calls me jo", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "jo van gameren", - "start_position": 11, - "end_position": 25 - }, - { - "entity_type": "PERSON", - "entity_value": "jo", - "start_position": 48, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jo", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "jo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "van", - "idx": 14, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "van", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gameren", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "gameren", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 26, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "everyone", - "idx": 30, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "everyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "calls", - "idx": 39, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jo", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "jo", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "I-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Africa", - "Lowercase": true, - "Template#": 58 - } - }, - { - "full_text": "Susanne Fleischer listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Louelle van den Brandhof – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Susanne Fleischer", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "PERSON", - "entity_value": "Louelle van den Brandhof", - "start_position": 173, - "end_position": 197 - } - ], - "tokens": [ - { - "text": "Susanne", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Susanne", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fleischer", - "idx": 8, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Fleischer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 18, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 25, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 29, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 33, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 36, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 67, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 71, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 75, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 79, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 85, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 88, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 98, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 103, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 106, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 107, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 109, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 111, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 112, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 117, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 121, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 124, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 128, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 131, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 132, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 134, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 138, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 141, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 143, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 156, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 162, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 168, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 170, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Louelle", - "idx": 173, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Louelle", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "van", - "idx": 181, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "van", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "den", - "idx": 185, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "den", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brandhof", - "idx": 189, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Brandhof", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 198, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 200, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 202, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 205, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 211, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "I-PERSON", - "I-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Czech Republic", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "May I request to have the statement sent to Brandenburgische Straße 58, Berlin Lichtenrade 12107?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Brandenburgische Straße 58, Berlin Lichtenrade 12107", - "start_position": 44, - "end_position": 96 - } - ], - "tokens": [ - { - "text": "May", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "May", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 14, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 17, - "tag_": "VB", - "pos_": "AUX", - "dep_": "xcomp", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 36, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 41, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brandenburgische", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Brandenburgische", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Straße", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Straße", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "58", - "idx": 68, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "58", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 70, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Berlin", - "idx": 72, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Berlin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lichtenrade", - "idx": 79, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Lichtenrade", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "12107", - "idx": 91, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "12107", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 96, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Gambia", - "Lowercase": false, - "Template#": 38 - } - }, - { - "full_text": "Not getting bank documents on my addres. Can you please validate the following 27 Alkyon Avenue, Kouklia 8500", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "27 Alkyon Avenue, Kouklia 8500", - "start_position": 79, - "end_position": 109 - } - ], - "tokens": [ - { - "text": "Not", - "idx": 0, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 4, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bank", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "bank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "documents", - "idx": 17, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "document", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 30, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addres", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "addres", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Can", - "idx": 41, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validate", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "validate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 65, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "following", - "idx": 69, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "follow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "27", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "27", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Alkyon", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Alkyon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Avenue", - "idx": 89, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Avenue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 95, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kouklia", - "idx": 97, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Kouklia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "8500", - "idx": 105, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "8500", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Bolivia", - "Lowercase": false, - "Template#": 7 - } - }, - { - "full_text": "what are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "what", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Russia", - "Lowercase": true, - "Template#": 40 - } - }, - { - "full_text": "I've shared files with you ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 27, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'ve", - "idx": 1, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shared", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "files", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "file", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Croatian", - "Country": "Algeria", - "Lowercase": false, - "Template#": 80 - } - }, - { - "full_text": "I'd like to order a taxi to Smáratún 31, Vík 870", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Smáratún 31, Vík 870", - "start_position": 28, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 9, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 12, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taxi", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "taxi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Smáratún", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Smáratún", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "31", - "idx": 37, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "31", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Vík", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Vík", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "870", - "idx": 45, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "870", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Kurdistan", - "Lowercase": false, - "Template#": 62 - } - }, - { - "full_text": "I have lost my card 5274071970362249. Could you please block my credit card ASAP ? , My name is Josef Vokatý.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5274071970362249", - "start_position": 20, - "end_position": 36 - }, - { - "entity_type": "PERSON", - "entity_value": "Josef Vokatý", - "start_position": 96, - "end_position": 108 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5274071970362249", - "idx": 20, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5274071970362249", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 48, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 55, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 61, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ASAP", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advmod", - "lemma_": "ASAP", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 85, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 88, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 93, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Josef", - "idx": 96, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Josef", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Vokatý", - "idx": 102, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Vokatý", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 108, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Nigeria", - "Lowercase": false, - "Template#": 10 - } - }, - { - "full_text": "You can tell Lily was a huge Lily Bennett fan. Written when he was only 14.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Lily", - "start_position": 13, - "end_position": 17 - }, - { - "entity_type": "PERSON", - "entity_value": "Lily Bennett", - "start_position": 29, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lily", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Lily", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 18, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "huge", - "idx": 24, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "huge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lily", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lily", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bennett", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Bennett", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fan", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Written", - "idx": 47, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 55, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 63, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "only", - "idx": 67, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "only", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 72, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 74, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Niger", - "Lowercase": false, - "Template#": 105 - } - }, - { - "full_text": "Hello I moved, please update my new address is Kvaløyvågvegen 140, KVALØYSLETTA 9100", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Kvaløyvågvegen 140, KVALØYSLETTA 9100", - "start_position": 47, - "end_position": 84 - } - ], - "tokens": [ - { - "text": "Hello", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "hello", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "moved", - "idx": 8, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "move", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 13, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 15, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "update", - "idx": 22, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "update", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 44, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kvaløyvågvegen", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Kvaløyvågvegen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "140", - "idx": 62, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "140", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 65, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "KVALØYSLETTA", - "idx": 67, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "KVALØYSLETTA", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "9100", - "idx": 80, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "9100", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Asia", - "Lowercase": false, - "Template#": 47 - } - }, - { - "full_text": "I want to cancel my card 4485161502276468 because I lost it", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4485161502276468", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4485161502276468", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4485161502276468", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "because", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "because", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 50, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 52, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Guinea", - "Lowercase": false, - "Template#": 52 - } - }, - { - "full_text": "I'd like to order a taxi to Netelaan 258, Kortenaken 3470", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Netelaan 258, Kortenaken 3470", - "start_position": 28, - "end_position": 57 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 9, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 12, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taxi", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "taxi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Netelaan", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Netelaan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "258", - "idx": 37, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "258", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 40, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kortenaken", - "idx": 42, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Kortenaken", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3470", - "idx": 53, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3470", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Jordan", - "Lowercase": false, - "Template#": 62 - } - }, - { - "full_text": "How can I request a new credit card pin ?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pin", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Mali", - "Lowercase": false, - "Template#": 17 - } - }, - { - "full_text": "Please have the manager call me at 070 7033 9168 I'd like to join accounts with ms. Inunnguaq", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "070 7033 9168", - "start_position": 35, - "end_position": 48 - }, - { - "entity_type": "PERSON", - "entity_value": "Inunnguaq", - "start_position": 84, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manager", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "manager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 24, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "070", - "idx": 35, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "070", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "7033", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "7033", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "9168", - "idx": 44, - "tag_": "CD", - "pos_": "NUM", - "dep_": "ROOT", - "lemma_": "9168", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 49, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 50, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 58, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "join", - "idx": 61, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "join", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "accounts", - "idx": 66, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 75, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ms", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ms", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Inunnguaq", - "idx": 84, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Inunnguaq", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Greenland", - "Country": "Mozambique", - "Lowercase": false, - "Template#": 35 - } - }, - { - "full_text": "How do I change the address linked to my credit card to Letališka 75, Kobilje 9227?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Letališka 75, Kobilje 9227", - "start_position": 56, - "end_position": 82 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "linked", - "idx": 28, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "link", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 38, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 48, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 53, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Letališka", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Letališka", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "75", - "idx": 66, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "75", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 68, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kobilje", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Kobilje", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "9227", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "9227", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 82, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Haiti", - "Lowercase": false, - "Template#": 19 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' HartmannAntonsson@jourrapide.com", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "HartmannAntonsson@jourrapide.com", - "start_position": 59, - "end_position": 91 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "HartmannAntonsson@jourrapide.com", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "pobj", - "lemma_": "hartmannantonsson@jourrapide.com", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Greece", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "I would like to remove my kid Róża from the will. How do I do that?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Róża", - "start_position": 30, - "end_position": 34 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "remove", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "remove", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kid", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "kid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Róża", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Róża", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 40, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 44, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 48, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "How", - "idx": 50, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 54, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 59, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 62, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 66, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Algeria", - "Lowercase": false, - "Template#": 45 - } - }, - { - "full_text": "Please tell me your date of birth. It's 4/21/1972", - "masked": null, - "spans": [ - { - "entity_type": "BIRTHDAY", - "entity_value": "4/21/1972", - "start_position": 40, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "birth", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "birth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 33, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 35, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4/21/1972", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "4/21/1972", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-BIRTHDAY" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Latvia", - "Lowercase": false, - "Template#": 59 - } - }, - { - "full_text": "A tribute to Laura Lane-Poole – sadly, she wasn't impressed.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Laura Lane-Poole", - "start_position": 13, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "A", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 2, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Laura", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Laura", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lane", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lane", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 23, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Poole", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Poole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 32, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sadly", - "idx": 34, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sadly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "she", - "idx": 41, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 45, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 48, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "impressed", - "idx": 52, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "impressed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 61, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "I-PERSON", - "I-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Solomon Islands", - "Lowercase": false, - "Template#": 100 - } - }, - { - "full_text": "My card 5285808489036922 expires soon � when will I get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5285808489036922", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5285808489036922", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5285808489036922", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Germany", - "Lowercase": false, - "Template#": 14 - } - }, - { - "full_text": "Jordan was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Jordan", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "Jordan", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jordan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 7, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 11, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 24, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Jordan", - "Lowercase": false, - "Template#": 24 - } - }, - { - "full_text": "My card 4532572288120717 is expiring this month. Please let me know process to it's extend validity.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4532572288120717", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4532572288120717", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4532572288120717", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expiring", - "idx": 28, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 37, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "let", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "let", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "know", - "idx": 63, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "process", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "process", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 79, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 81, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "extend", - "idx": 84, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "extend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validity", - "idx": 91, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "validity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Finland", - "Lowercase": false, - "Template#": 11 - } - }, - { - "full_text": "I'm moving out of the country, so please cancel my subscription", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "moving", - "idx": 4, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "move", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "out", - "idx": 11, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "out", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "country", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "country", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 29, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 31, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 34, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 41, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 48, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "subscription", - "idx": 51, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "subscription", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Mauritius", - "Lowercase": false, - "Template#": 57 - } - }, - { - "full_text": "I want to add André Souza as a beneficiary to my account", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "André Souza", - "start_position": 14, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "add", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "add", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "André", - "idx": 14, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "André", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Souza", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Souza", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 26, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 29, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beneficiary", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beneficiary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 43, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 46, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Oman", - "Lowercase": false, - "Template#": 51 - } - }, - { - "full_text": "You can tell Szemere was a huge Szemere Szakács fan. Written when he was only 14.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Szemere", - "start_position": 13, - "end_position": 20 - }, - { - "entity_type": "PERSON", - "entity_value": "Szemere Szakács", - "start_position": 32, - "end_position": 47 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Szemere", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Szemere", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 21, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 25, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "huge", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "huge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Szemere", - "idx": 32, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Szemere", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Szakács", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Szakács", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fan", - "idx": 48, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 51, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Written", - "idx": 53, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 61, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 66, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 69, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "only", - "idx": 73, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "only", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 80, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Grenada", - "Lowercase": false, - "Template#": 105 - } - }, - { - "full_text": "In Armenia} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Kian Brennan points out, \"most are horrible\".", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Armenia", - "start_position": 3, - "end_position": 10 - }, - { - "entity_type": "PERSON", - "entity_value": "Kian Brennan", - "start_position": 135, - "end_position": 147 - } - ], - "tokens": [ - { - "text": "In", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Armenia", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Armenia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "}", - "idx": 10, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "}", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 17, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "company", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "company", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 30, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 35, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 37, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expressions", - "idx": 45, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "expression", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employee", - "idx": 60, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "employee", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "loyalty", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "loyalty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sung", - "idx": 77, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "sing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 82, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "salarymen", - "idx": 85, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "salaryman", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 94, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Unfortunately", - "idx": 96, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "unfortunately", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 109, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 111, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regular", - "idx": 114, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "regular", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "RR", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rr", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "commenter", - "idx": 125, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "commenter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kian", - "idx": 135, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Kian", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brennan", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Brennan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 148, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "out", - "idx": 155, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "out", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 158, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 160, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 161, - "tag_": "JJS", - "pos_": "ADJ", - "dep_": "nsubj", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 166, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "horrible", - "idx": 170, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "horrible", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 178, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 179, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Armenia", - "Lowercase": false, - "Template#": 111 - } - }, - { - "full_text": "", - "masked": null, - "spans": [], - "tokens": [], - "tags": [], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Qatar", - "Lowercase": false, - "Template#": 125 - } - }, - { - "full_text": "During the 1990s, The Flying Bear invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "The Flying Bear", - "start_position": 18, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "During", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "during", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1990s", - "idx": 11, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "1990", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 16, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Flying", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Flying", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bear", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invested", - "idx": 34, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "invest", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heavily", - "idx": 43, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "heavily", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 54, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "microprocessor", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "microprocessor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designs", - "idx": 73, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fostering", - "idx": 81, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "foster", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 91, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rapid", - "idx": 95, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "rapid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "growth", - "idx": 101, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "growth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 108, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 111, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "computer", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "computer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "industry", - "idx": 124, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "industry", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 132, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Japanese (Anglicized)", - "Country": "Niger", - "Lowercase": false, - "Template#": 120 - } - }, - { - "full_text": "The true gender of Signe has been under debate for years, but the riff and building energy is a rock masterpiece regardless.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Signe", - "start_position": 19, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "true", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "true", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gender", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "gender", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Signe", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Signe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 29, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "debate", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "debate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 47, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "years", - "idx": 51, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 56, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 58, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 62, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "riff", - "idx": 66, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "riff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 71, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "building", - "idx": 75, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "building", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "energy", - "idx": 84, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "energy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 91, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 94, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rock", - "idx": 96, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rock", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masterpiece", - "idx": 101, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "masterpiece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regardless", - "idx": 113, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "regardless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 123, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Middle East", - "Lowercase": false, - "Template#": 94 - } - }, - { - "full_text": "You can tell Monika was a huge Monika Chocholová fan. Written when he was only 14.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Monika", - "start_position": 13, - "end_position": 19 - }, - { - "entity_type": "PERSON", - "entity_value": "Monika Chocholová", - "start_position": 31, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Monika", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Monika", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 20, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 24, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "huge", - "idx": 26, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "huge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Monika", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Monika", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chocholová", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Chocholová", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fan", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Written", - "idx": 54, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 62, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 67, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 70, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "only", - "idx": 74, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "only", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "The Philippines", - "Lowercase": false, - "Template#": 105 - } - }, - { - "full_text": "have you been to a joar sandberg concert before?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "joar sandberg", - "start_position": 19, - "end_position": 32 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 9, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 14, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 17, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "joar", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "amod", - "lemma_": "joar", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sandberg", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "sandberg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concert", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "concert", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "before", - "idx": 41, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "before", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Moldova", - "Lowercase": true, - "Template#": 92 - } - }, - { - "full_text": "May I request to have the statement sent to Truhlářská 996, Pacov 39501?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Truhlářská 996, Pacov 39501", - "start_position": 44, - "end_position": 71 - } - ], - "tokens": [ - { - "text": "May", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "May", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 14, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 17, - "tag_": "VB", - "pos_": "AUX", - "dep_": "xcomp", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 36, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 41, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Truhlářská", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Truhlářská", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "996", - "idx": 55, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "996", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 58, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pacov", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Pacov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "39501", - "idx": 66, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "39501", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 71, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "Israel", - "Lowercase": false, - "Template#": 38 - } - }, - { - "full_text": "Can I withdraw cash using my card 4929950890674928 at aTM center ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929950890674928", - "start_position": 34, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdraw", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "withdraw", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cash", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "cash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "using", - "idx": 20, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "use", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 26, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929950890674928", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4929950890674928", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aTM", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "punct", - "lemma_": "aTM", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "center", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "center", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 65, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Tanzania", - "Lowercase": false, - "Template#": 18 - } - }, - { - "full_text": "May I request to have the statement sent to 47 Moatsou Street, Trozaina 4781?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "47 Moatsou Street, Trozaina 4781", - "start_position": 44, - "end_position": 76 - } - ], - "tokens": [ - { - "text": "May", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "May", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 14, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 17, - "tag_": "VB", - "pos_": "AUX", - "dep_": "xcomp", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 36, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 41, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "47", - "idx": 44, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "47", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Moatsou", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Moatsou", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Street", - "idx": 55, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Street", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 61, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Trozaina", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Trozaina", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4781", - "idx": 72, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4781", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 76, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Scotland", - "Lowercase": false, - "Template#": 38 - } - }, - { - "full_text": "My website is ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 14, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 11, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "Vatican City", - "Lowercase": false, - "Template#": 78 - } - }, - { - "full_text": "Please send my portfolio to this email MakarMaslow@teleworm.us", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "MakarMaslow@teleworm.us", - "start_position": 39, - "end_position": 62 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "portfolio", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "portfolio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 28, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "MakarMaslow@teleworm.us", - "idx": 39, - "tag_": "ADD", - "pos_": "X", - "dep_": "punct", - "lemma_": "makarmaslow@teleworm.us", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Canada", - "Lowercase": false, - "Template#": 49 - } - }, - { - "full_text": "This song by ex-Zombie Mazzi is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mazzi", - "start_position": 23, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mazzi", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Mazzi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 32, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 34, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 53, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 61, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 67, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 71, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 83, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 86, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 90, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 96, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 108, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 110, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 113, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 122, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 128, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 131, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 136, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 141, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 146, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 153, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 156, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 159, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 166, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 169, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 171, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 175, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 177, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 182, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 186, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 192, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 197, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 199, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Panama", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "Zita, can I please speak to your boss?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Zita", - "start_position": 0, - "end_position": 4 - } - ], - "tokens": [ - { - "text": "Zita", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Zita", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 4, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 6, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 10, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 12, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 19, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 28, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boss", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boss", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 37, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Egypt", - "Lowercase": false, - "Template#": 37 - } - }, - { - "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "CAN", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "CAN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SPEAK", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TO", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 15, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "REAL", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "real", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PERSON", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 28, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 30, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Ukraine", - "Lowercase": false, - "Template#": 44 - } - }, - { - "full_text": "From the film American graffiti (also features Archie Hunt. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Archie Hunt", - "start_position": 47, - "end_position": 58 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Archie", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Archie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hunt", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Hunt", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 58, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 60, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 64, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 67, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 71, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 74, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Peru", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "Asian Answers songwriter Þórbergur Þorleifsson employs corporate lingo in the first verse of his Harold'S Resignation Letter", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Asian Answers", - "start_position": 0, - "end_position": 13 - }, - { - "entity_type": "PERSON", - "entity_value": "Þórbergur Þorleifsson", - "start_position": 25, - "end_position": 46 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Harold'S", - "start_position": 97, - "end_position": 105 - } - ], - "tokens": [ - { - "text": "Asian", - "idx": 0, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "compound", - "lemma_": "asian", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answers", - "idx": 6, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriter", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Þórbergur", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Þórbergur", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Þorleifsson", - "idx": 35, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Þorleifsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employs", - "idx": 47, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "employ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "corporate", - "idx": 55, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "corporate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lingo", - "idx": 65, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "lingo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 71, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 78, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verse", - "idx": 84, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 90, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 93, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Harold", - "idx": 97, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Harold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 103, - "tag_": "POS", - "pos_": "PART", - "dep_": "compound", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Resignation", - "idx": 106, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "resignation", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Letter", - "idx": 118, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "letter", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Uzbekistan", - "Lowercase": false, - "Template#": 113 - } - } -] \ No newline at end of file diff --git a/notebooks/1_Generate_data.ipynb b/notebooks/1_Generate_data.ipynb new file mode 100644 index 0000000..eb7b6bc --- /dev/null +++ b/notebooks/1_Generate_data.ipynb @@ -0,0 +1,526 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "scrolled": true + }, + "outputs": [], + "source": [ + "import datetime\n", + "import pandas as pd\n", + "import numpy as np\n", + "import pprint\n", + "from faker import Faker\n", + "from presidio_evaluator import InputSample\n", + "from presidio_evaluator.data_generator import PresidioDataGenerator\n", + "from presidio_evaluator.data_generator.faker_extensions import (\n", + " RecordsFaker, \n", + " IpAddressProvider, \n", + " NationalityProvider, \n", + " OrganizationProvider, \n", + " UsDriverLicenseProvider, \n", + " AddressProviderNew\n", + ")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Generate fake PII data using Presidio's data generator" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Presidio's data generator is based on the [Python Faker tool](https://faker.readthedocs.io/en/master/)\n", + "and allows you to generate a synthetic dataset from sentence templates.\n", + "It features wrappers for Faker which allows you to sample from existing sources of fake data.\n", + "\n", + "Example templates:\n", + "\n", + "> I live at {{address}}\n", + "\n", + "> You can email me at {{email}}. Thanks, {{first_name}}\n", + "\n", + "> What's your last name? It's {{last_name}}\n", + "\n", + "> Every time I see you falling I get down on my knees and pray\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Simple example\n", + "This uses all the default values to generate 10 samples based on three templates" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "from presidio_evaluator.data_generator import PresidioDataGenerator\n", + "\n", + "sentence_templates = [\n", + " \"My name is {{name}}\",\n", + " \"Please send it to {{address}}\",\n", + " \"I just moved to {{city}} from {{country}}\"\n", + "]\n", + "\n", + "\n", + "data_generator = PresidioDataGenerator()\n", + "fake_records = data_generator.generate_fake_data(\n", + " templates=sentence_templates, n_samples=10\n", + ")\n", + "\n", + "fake_records = list(fake_records)\n", + "\n", + "# Print the spans of the first sample\n", + "print(fake_records[0].fake)\n", + "print(fake_records[0].spans)\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Generate a full dataset\n", + "\n", + "In this example we customize the data generator to:\n", + "1. Accept more types of entities (by adding more providers to Faker. see [Faker's documentation](https://faker.readthedocs.io/en/master/index.html#how-to-create-a-provider)\n", + "2. Handle records of multiple PII entities per fake person for a more realistic dataset\n", + "\n", + "We then translate the generated entity types to match Presidio's, and save the new dataset in json and CONLL03 formats." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "a. Specify parameters:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "scrolled": true + }, + "outputs": [], + "source": [ + "number_of_samples = 1500\n", + "cur_time = datetime.date.today().strftime(\"%B_%d_%Y\")\n", + "\n", + "output_file = f\"../data/generated_size_{number_of_samples}_date_{cur_time}.json\"\n", + "output_conll = f\"../data/generated_size_{number_of_samples}_date_{cur_time}.tsv\"\n", + "\n", + "templates_file_path = \"../presidio_evaluator/data_generator/raw_data/templates.txt\"\n", + "fake_name_generator_file = \"../presidio_evaluator/data_generator/raw_data/FakeNameGenerator.com_3000.csv\"\n", + "\n", + "lower_case_ratio = 0.05" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "pycharm": { + "name": "#%% md\n" + } + }, + "source": [ + "b. Read [FakeNameGenerator](https://www.fakenamegenerator.com/) data (optional, extends the set of fake values)\n", + "and create a `RecordsFaker` which returns a fake PII record (with multiple values) instead of one value,\n", + "allowing dependencies between values belonging to the same fake person\n", + "(e.g. name = Michael Smith with the email michael.smith@gmail.com).\n", + "\n", + "The `fake_name_generator_file` can be downloaded from https://www.fakenamegenerator.com/order.php\n", + "\n", + "> Note that you can create fake records for multiple name sets, allowing you to adapt the fake data to the real data if needed. " + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "# Read FakeNameGenerator CSV\n", + "fake_name_generator_df = pd.read_csv(fake_name_generator_file)\n", + "\n", + "# Update to match existing templates\n", + "PresidioDataGenerator.update_fake_name_generator_df(fake_name_generator_df)\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "c. Create a Faker object (in this case, a `RecordsFaker`)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "scrolled": true + }, + "outputs": [], + "source": [ + "# Create RecordsFaker (extension which handles records instead of independent values) and add additional specific providers\n", + "fake = RecordsFaker(fake_name_generator_df, locale=\"en_US\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "d. Add more providers, not part of the original Faker package" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "fake.add_provider(IpAddressProvider) # Both Ipv4 and IPv6 IP addresses\n", + "fake.add_provider(NationalityProvider) # Read countries + nationalities from file\n", + "fake.add_provider(OrganizationProvider) # Read organization names from file\n", + "fake.add_provider(UsDriverLicenseProvider) # Read US driver license numbers from file\n", + "fake.add_provider(AddressProviderNew) # Extend the default address formats Faker supports" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "pycharm": { + "name": "#%% md\n" + } + }, + "source": [ + "e. Create the Presidio Data Generator object and add provider aliases if the templates have a different entity name than the Faker object" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "# Create Presidio Data Generator\n", + "data_generator = PresidioDataGenerator(custom_faker=fake, lower_case_ratio=lower_case_ratio)\n", + "\n", + "# Create entity aliases (e.g. if faker supports \"name\" but templates contain \"person\").\n", + "data_generator.add_provider_alias(provider_name=\"name\", new_name=\"person\")\n", + "data_generator.add_provider_alias(provider_name=\"credit_card_number\", new_name=\"credit_card\")\n", + "data_generator.add_provider_alias(provider_name=\"date_of_birth\", new_name=\"birthday\")\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "pycharm": { + "name": "#%% md\n" + }, + "scrolled": true + }, + "source": [ + "f. Generate data" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "sentence_templates = PresidioDataGenerator.read_template_file(templates_file_path)\n", + "fake_records = data_generator.generate_fake_data(\n", + " templates=sentence_templates, n_samples=number_of_samples\n", + ")\n", + "\n", + "fake_records = list(fake_records)\n", + "pprint.pprint(fake_records[0])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Verify randomness of dataset" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "scrolled": true + }, + "outputs": [], + "source": [ + "from collections import Counter\n", + "count_per_template_id = Counter([sample.template_id for sample in fake_records])\n", + "\n", + "\n", + "print(f\"Total: {sum(count_per_template_id.values())}\")\n", + "print(f\"Mean numbers of records per template: {sum(count_per_template_id.values())/len(count_per_template_id)}\")\n", + "print(f\"Median numbers of records per template: {np.median(list(count_per_template_id.values()))}\")\n", + "print(f\"Std: {np.std(list(count_per_template_id.values()))}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "pycharm": { + "name": "#%% md\n" + } + }, + "source": [ + "#### Which entities did we generate?" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "count_per_entity = Counter()\n", + "for record in fake_records:\n", + " count_per_entity.update(Counter([span.type for span in record.spans]))\n", + "\n", + "count_per_entity\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "pycharm": { + "name": "#%% md\n" + } + }, + "source": [ + "#### Translate tags to Presidio's supported entities (optional)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "translator = {'person': \"PERSON\",\n", + " 'ip_address': \"IP_ADDRESS\",\n", + " 'us_driver_license': \"US_DRIVER_LICENSE\",\n", + " 'organization': \"ORGANIZATION\",\n", + " 'name_female': \"PERSON\",\n", + " 'address': \"ADDRESS\",\n", + " 'country': \"LOCATION\",\n", + " 'credit_card_number': \"CREDIT_CARD\",\n", + " 'city': \"LOCATION\",\n", + " 'street_name': \"ADDRESS\",\n", + " 'building_number': \"ADDRESS\",\n", + " 'name': \"PERSON\",\n", + " 'iban': \"IBAN_CODE\",\n", + " 'last_name': \"PERSON\",\n", + " 'last_name_male': \"PERSON\",\n", + " 'last_name_female': \"PERSON\",\n", + " 'first_name': \"PERSON\",\n", + " 'first_name_male': \"PERSON\",\n", + " 'first_name_female': \"PERSON\",\n", + " 'phone_number': \"PHONE_NUMBER\",\n", + " 'prefix_female': \"PREFIX\",\n", + " 'url': \"DOMAIN_NAME\",\n", + " 'ssn': \"US_SSN\",\n", + " 'email': \"EMAIL_ADDRESS\",\n", + " 'date_time': \"DATE_TIME\",\n", + " 'date_of_birth': \"DATE_TIME\",\n", + " 'day_of_week': \"DATE_TIME\",\n", + " 'name_male': \"PERSON\",\n", + " 'prefix_male': \"PERSON\",\n", + " 'nationality': \"LOCATION\",\n", + " 'first_name_nonbinary': \"PERSON\",\n", + " 'postcode': \"ADDRESS\",\n", + " 'secondary_address': \"ADDRESS\",\n", + " 'company': \"ORGANIZATION\",\n", + " 'job': \"TITLE\",\n", + " 'zipcode': \"ADDRESS\",\n", + " 'state_abbr': \"ADDRESS\"}\n", + "\n", + "count_per_entity_new = Counter()\n", + "for record in fake_records:\n", + " for span in record.spans:\n", + " span.type = translator[span.type]\n", + " count_per_entity_new[span.type] += 1\n", + "\n", + "count_per_entity_new\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Transform the fake samples to a list of InputSample objects:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "%%time\n", + "input_samples = [InputSample.from_faker_spans_result(faker_spans_result=fake_record) for fake_record in fake_records]" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "pycharm": { + "name": "#%% md\n" + } + }, + "source": [ + "#### Save as json" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "InputSample.to_json(dataset=input_samples, output_file=output_file)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "pycharm": { + "name": "#%% md\n" + } + }, + "source": [ + "#### Create a CONLL like data frame" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "conll = InputSample.create_conll_dataset(input_samples)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "conll.to_csv(output_conll,sep=\"\\t\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Next steps\n", + "\n", + "- Evaluate Presidio using this fake data. [Sample](\"4_Evaluate_Presidio_Analyzer.ipynb\")\n", + "- Split to train/test/validation while ensuring sentences originiating from the same template are all on the same subset. [Sample](\"3_Split_by_pattern_#.ipynb\")\n", + "- Conduct a small exploratory data analysis on the generated data. [Sample](\"2_PII_EDA.ipynb\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Copyright notice:\n", + "\n", + "\n", + "Data generated for evaluation was created using Fake Name Generator.\n", + "\n", + "Fake Name Generator identities by the [Fake Name Generator](https://www.fakenamegenerator.com/) \n", + "are licensed under a [Creative Commons Attribution-Share Alike 3.0 United States License](http://creativecommons.org/licenses/by-sa/3.0/us/). Fake Name Generator and the Fake Name Generator logo are trademarks of Corban Works, LLC." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "interpreter": { + "hash": "2509fbe9adc3579fd0ef23e6a2c6fb50cb745caa174aafdf017283479e60bc43" + }, + "kernelspec": { + "display_name": "presidio", + "language": "python", + "name": "presidio" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.12" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/notebooks/PII EDA.ipynb b/notebooks/2_PII_EDA.ipynb similarity index 67% rename from notebooks/PII EDA.ipynb rename to notebooks/2_PII_EDA.ipynb index 785a7ec..6966394 100644 --- a/notebooks/PII EDA.ipynb +++ b/notebooks/2_PII_EDA.ipynb @@ -9,6 +9,16 @@ "This notebook is used to verify the different fake entities before and after the creation of a synthetic dataset / augmented dataset. First part looks at the generation details and stats, second part evaluates the created synthetic dataset after it has been generated." ] }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "#!pip install matplotlib\n", + "#!pip install wordcloud" + ] + }, { "cell_type": "code", "execution_count": null, @@ -17,11 +27,8 @@ "source": [ "import pandas as pd\n", "\n", - "from presidio_evaluator.data_generator.extensions import generate_iban, generate_ip_addresses, generate_SSNs, \\\n", - " generate_company_names, generate_url, generate_roles, generate_titles, generate_nationality, generate_nation_man, \\\n", - " generate_nation_woman, generate_nation_plural, generate_title\n", - "\n", - "from presidio_evaluator.data_generator import FakeDataGenerator, read_synth_dataset\n", + "from presidio_evaluator import InputSample\n", + "from presidio_evaluator.data_generator import PresidioDataGenerator\n", "\n", "from collections import Counter\n", "\n", @@ -42,7 +49,7 @@ "metadata": {}, "outputs": [], "source": [ - "df = pd.read_csv(\"../presidio_evaluator/data_generator/raw_data/FakeNameGenerator.com_3000.csv\",encoding=\"utf-8\")" + "pii_df = pd.read_csv(\"../presidio_evaluator/data_generator/raw_data/FakeNameGenerator.com_3000.csv\",encoding=\"utf-8\")" ] }, { @@ -51,19 +58,8 @@ "metadata": {}, "outputs": [], "source": [ - "generator = FakeDataGenerator(fake_pii_df=df, \n", - " templates=None, \n", - " dictionary_path=None,\n", - " ignore_types={\"IP_ADDRESS\", 'US_SSN', 'URL','ADDRESS'})" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "pii_df = generator.prep_fake_pii(df)" + "PresidioDataGenerator.update_fake_name_generator_df(pii_df)\n", + "pii_df.head()" ] }, { @@ -85,7 +81,6 @@ "metadata": {}, "outputs": [], "source": [ - "#!pip install wordcloud\n", "from wordcloud import WordCloud\n", "\n", "def series_to_wordcloud(series):\n", @@ -103,7 +98,7 @@ "metadata": {}, "outputs": [], "source": [ - "series_to_wordcloud(pii_df.FIRST_NAME)" + "series_to_wordcloud(pii_df.first_name)" ] }, { @@ -112,7 +107,7 @@ "metadata": {}, "outputs": [], "source": [ - "series_to_wordcloud(pii_df.LAST_NAME)" + "series_to_wordcloud(pii_df.last_name)" ] }, { @@ -121,7 +116,7 @@ "metadata": {}, "outputs": [], "source": [ - "series_to_wordcloud(pii_df.COUNTRY)" + "series_to_wordcloud(pii_df.country_full)" ] }, { @@ -130,7 +125,7 @@ "metadata": {}, "outputs": [], "source": [ - "series_to_wordcloud(pii_df.ORGANIZATION)" + "series_to_wordcloud(pii_df.company)" ] }, { @@ -139,7 +134,7 @@ "metadata": {}, "outputs": [], "source": [ - "series_to_wordcloud(pii_df.CITY)" + "series_to_wordcloud(pii_df.city)" ] }, { @@ -155,55 +150,7 @@ "metadata": {}, "outputs": [], "source": [ - "synth = read_synth_dataset(\"../data/generated_train_November 12 2019.json\")" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "sentences_only = [(sample.full_text,sample.metadata) for sample in synth]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "sentences_only[2]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "print(\"Proportions of female vs. male based samples:\")\n", - "Counter([sentence[1]['Gender'] for sentence in sentences_only])" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "print(\"Proportion of lower case samples:\")\n", - "Counter([sentence[1]['Lowercase'] for sentence in sentences_only])" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "print(\"Proportion of nameset across samples:\")\n", - "Counter([sentence[1]['NameSet'] for sentence in sentences_only])" + "synth = InputSample.read_dataset_json(\"../data/synth_dataset.json\")" ] }, { @@ -253,9 +200,9 @@ ], "metadata": { "kernelspec": { - "display_name": "presidio-research", + "display_name": "presidio", "language": "python", - "name": "presidio-research" + "name": "presidio" }, "language_info": { "codemirror_mode": { @@ -267,7 +214,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.8" + "version": "3.8.12" }, "pycharm": { "stem_cell": { @@ -281,4 +228,4 @@ }, "nbformat": 4, "nbformat_minor": 2 -} +} \ No newline at end of file diff --git a/notebooks/3 Split by pattern #.ipynb b/notebooks/3 Split by pattern #.ipynb new file mode 100644 index 0000000..2f1ec44 --- /dev/null +++ b/notebooks/3 Split by pattern #.ipynb @@ -0,0 +1,163 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Train/Test/Validation split of input samples. \n", + "This notebook shows how train/test/split is being made on a List[InputSample]\n", + "\n", + "This is different from the normal split since we don't want sentences generated from the same pattern to be in more than one set. (Applicable only if the dataset was generated from templates)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "from presidio_evaluator import InputSample\n", + "from presidio_evaluator.validation import split_dataset, save_to_json\n", + "from datetime import date\n", + "\n", + "%reload_ext autoreload" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Load full dataset" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "all_samples = InputSample.read_dataset_json(\"../data/synth_dataset.json\")\n", + "print(len(all_samples))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Split to train/test/dev" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "TRAIN_TEST_VAL_RATIOS = [0.7,0.2,0.1]\n", + "\n", + "train, test, validation = split_dataset(all_samples,TRAIN_TEST_VAL_RATIOS)\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Train/Test only (no validation)\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "#TRAIN_TEST_RATIOS = [0.7,0.3]\n", + "#train,test = split_dataset(all_sampleTRAIN_TEST_RATIOSEST_RATIOS)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Save the different sets to files" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "DATE_DATE = date.today().strftime(\"%b-%d-%Y\")\n", + "\n", + "save_to_json(train,\"../data/train_{}.json\".format(DATE_DATE))\n", + "save_to_json(test,\"../data/test_{}.json\".format(DATE_DATE))\n", + "save_to_json(validation,\"../data/validation_{}.json\".format(DATE_DATE))\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "print(len(train))" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "print(len(test))" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "print(len(validation))" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "assert len(train) + len(test) + len(validation) == len(all_samples)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "presidio", + "language": "python", + "name": "presidio" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.12" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/notebooks/Split by pattern #.ipynb b/notebooks/3_Split_by_pattern_#.ipynb similarity index 88% rename from notebooks/Split by pattern #.ipynb rename to notebooks/3_Split_by_pattern_#.ipynb index 94b9e11..802f16d 100644 --- a/notebooks/Split by pattern #.ipynb +++ b/notebooks/3_Split_by_pattern_#.ipynb @@ -17,7 +17,6 @@ "outputs": [], "source": [ "from presidio_evaluator import InputSample\n", - "from presidio_evaluator.data_generator import read_synth_dataset\n", "from presidio_evaluator.validation import split_dataset, save_to_json\n", "from datetime import date\n", "\n", @@ -37,7 +36,7 @@ "metadata": {}, "outputs": [], "source": [ - "all_samples = read_synth_dataset(\"../data/synth_dataset.txt\")\n", + "all_samples = InputSample.read_dataset_json(\"../data/synth_dataset.json\")\n", "print(len(all_samples))" ] }, @@ -54,7 +53,6 @@ "metadata": {}, "outputs": [], "source": [ - "\n", "TRAIN_TEST_VAL_RATIOS = [0.7,0.2,0.1]\n", "\n", "train, test, validation = split_dataset(all_samples,TRAIN_TEST_VAL_RATIOS)\n" @@ -144,9 +142,21 @@ ], "metadata": { "kernelspec": { - "display_name": "presidio-research", + "display_name": "presidio", "language": "python", - "name": "presidio-research" + "name": "presidio" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.12" } }, "nbformat": 4, diff --git a/notebooks/4_Evaluate_Presidio_Analyzer.ipynb b/notebooks/4_Evaluate_Presidio_Analyzer.ipynb new file mode 100644 index 0000000..8a9b826 --- /dev/null +++ b/notebooks/4_Evaluate_Presidio_Analyzer.ipynb @@ -0,0 +1,722 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [], + "source": [ + "from presidio_evaluator import InputSample\n", + "from presidio_evaluator.evaluation import ModelError, Evaluator\n", + "from presidio_evaluator.models import PresidioAnalyzerWrapper\n", + "from presidio_analyzer import AnalyzerEngine\n", + "from collections import Counter\n", + "\n", + "import pandas as pd\n", + "\n", + "%load_ext autoreload\n", + "%autoreload 2\n", + "\n", + "pd.options.display.max_columns = None\n", + "pd.options.display.width=None" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Evaluate Presidio Analyzer\n", + "This notebook runs the PresidioAnalyzerEvaluator class on top of synthetic data.\n", + "\n", + "One can perform the following changes:\n", + "1. Replace the synthetic data creation with real data or with other type of synthetic data\n", + "2. Adapt the Presidio `AnalyzerEngine` to a specific engine with a different set of recognizers or configured to be used on different languages\n", + "\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### A. Read dataset for evaluation" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "\r", + "tokenizing input: 0%| | 0/3000 [00:00: 100%|██████| 3000/3000 [00:31<00:00, 95.34it/s]\n" + ] + } + ], + "source": [ + "presidio = PresidioAnalyzerWrapper(entities_to_keep=list(entities_to_keep))\n", + "evaluator = Evaluator(model=presidio)\n", + "evaluted_samples = evaluator.evaluate_all(input_samples)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### D. Extract statistics\n", + "- Presicion, recall and F measure are calculated based on a PII/Not PII binary classification per token.\n", + "- Specific entity recall and precision are calculated on the specific PII entity level." + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [], + "source": [ + "evaluation_result = evaluator.calculate_score(evaluted_samples)" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Entity Precision Recall Number of samples\n", + " CREDIT_CARD 100.00% 100.00% 2728\n", + " DATE_TIME 14.72% 89.14% 40\n", + " DOMAIN_NAME 100.00% 82.50% 41\n", + " EMAIL_ADDRESS 100.00% 100.00% 313\n", + " IBAN_CODE 100.00% 90.24% 1114\n", + " IP_ADDRESS 91.18% 83.78% 71\n", + " LOCATION 53.84% 35.91% 220\n", + " ORGANIZATION 24.24% 53.62% 897\n", + " PERSON 68.44% 82.73% 37\n", + " PHONE_NUMBER 99.40% 48.07% 14\n", + " US_DRIVER_LICENSE 88.89% 57.14% 1034\n", + " US_SSN 98.62% 97.73% 267\n", + "PII F measure: 0.7567568887066222\n" + ] + } + ], + "source": [ + "evaluation_result.print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### G. Analyze wrong predictions" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [], + "source": [ + "errors = evaluation_result.model_errors" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Most common false positive tokens:\n", + "[('\\n', 202), ('the', 110), ('\\n ', 96), ('last', 68), ('year', 48)]\n", + "Example sentence with each FP token:\n", + "how do i change my address to unit 9456 box 8731\n", + "dpo ap 71610 for post mail?\n", + "Muslija began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of El Tanque.\n", + "As promised, here's Božica's address:\n", + "\n", + "99 Sahankatu 77\n", + "Ortovero\n", + ", SV\n", + " Nigeria 21148\n", + "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Los Angeles by helicopter.\n", + "Ewan spent a year at BBC as the assistant to Aaron Panina, and the following year at Sanders-Gill in Seguin, which later became Weather Decision Technologies in 1965.\n" + ] + } + ], + "source": [ + "ModelError.most_common_fp_tokens(errors,n=5)" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
error_typeannotationpredictiontokenfull_text0
0FPODATE_TIME8731how do i change my address to unit 9456 box 87...None
1FPODATE_TIME\\nhow do i change my address to unit 9456 box 87...None
2FPODATE_TIMEdpohow do i change my address to unit 9456 box 87...None
3FPODATE_TIMEaphow do i change my address to unit 9456 box 87...None
4FPODATE_TIME71610how do i change my address to unit 9456 box 87...None
.....................
1224FPODATE_TIMEthisMy card 5115922521155230 is expiring this mont...None
1225FPODATE_TIMEmonthMy card 5115922521155230 is expiring this mont...None
1226FPODATE_TIME33649As promised, here's Zlata's address:\\n\\n29 Rue...None
1227FPODATE_TIME2Follow up with Edward Baranova in 2 months.None
1228FPODATE_TIMEmonthsFollow up with Edward Baranova in 2 months.None
\n", + "

1229 rows × 6 columns

\n", + "
" + ], + "text/plain": [ + " error_type annotation prediction token \\\n", + "0 FP O DATE_TIME 8731 \n", + "1 FP O DATE_TIME \\n \n", + "2 FP O DATE_TIME dpo \n", + "3 FP O DATE_TIME ap \n", + "4 FP O DATE_TIME 71610 \n", + "... ... ... ... ... \n", + "1224 FP O DATE_TIME this \n", + "1225 FP O DATE_TIME month \n", + "1226 FP O DATE_TIME 33649 \n", + "1227 FP O DATE_TIME 2 \n", + "1228 FP O DATE_TIME months \n", + "\n", + " full_text 0 \n", + "0 how do i change my address to unit 9456 box 87... None \n", + "1 how do i change my address to unit 9456 box 87... None \n", + "2 how do i change my address to unit 9456 box 87... None \n", + "3 how do i change my address to unit 9456 box 87... None \n", + "4 how do i change my address to unit 9456 box 87... None \n", + "... ... ... \n", + "1224 My card 5115922521155230 is expiring this mont... None \n", + "1225 My card 5115922521155230 is expiring this mont... None \n", + "1226 As promised, here's Zlata's address:\\n\\n29 Rue... None \n", + "1227 Follow up with Edward Baranova in 2 months. None \n", + "1228 Follow up with Edward Baranova in 2 months. None \n", + "\n", + "[1229 rows x 6 columns]" + ] + }, + "execution_count": 10, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "fps_df = ModelError.get_fps_dataframe(errors,entity='DATE_TIME')\n", + "if fps_df is not None:\n", + " fps_df[['full_text','token','prediction']]\n", + "fps_df" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
error_typeannotationpredictiontokenfull_text0
0Wrong entityPHONE_NUMBERDATE_TIME0910Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5...None
1Wrong entityPHONE_NUMBERDATE_TIME-Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5...None
2Wrong entityPHONE_NUMBERDATE_TIME5877671Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5...None
3Wrong entityPHONE_NUMBERDATE_TIME-Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5...None
4Wrong entityPHONE_NUMBERDATE_TIME4466x8827Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5...None
.....................
532FNPHONE_NUMBERO81Kelly Björgvinsdóttir\\nAdaptive\\n63 Via Verban...None
533FNPHONE_NUMBERO21Laura Gorski\\nMinistry Of Agriculture\\n07 57 a...None
534FNPHONE_NUMBERO232Laura Gorski\\nMinistry Of Agriculture\\n07 57 a...None
535FNPHONE_NUMBERO945Laura Gorski\\nMinistry Of Agriculture\\n07 57 a...None
536FNPHONE_NUMBERO1338Laura Gorski\\nMinistry Of Agriculture\\n07 57 a...None
\n", + "

537 rows × 6 columns

\n", + "
" + ], + "text/plain": [ + " error_type annotation prediction token \\\n", + "0 Wrong entity PHONE_NUMBER DATE_TIME 0910 \n", + "1 Wrong entity PHONE_NUMBER DATE_TIME - \n", + "2 Wrong entity PHONE_NUMBER DATE_TIME 5877671 \n", + "3 Wrong entity PHONE_NUMBER DATE_TIME - \n", + "4 Wrong entity PHONE_NUMBER DATE_TIME 4466x8827 \n", + ".. ... ... ... ... \n", + "532 FN PHONE_NUMBER O 81 \n", + "533 FN PHONE_NUMBER O 21 \n", + "534 FN PHONE_NUMBER O 232 \n", + "535 FN PHONE_NUMBER O 945 \n", + "536 FN PHONE_NUMBER O 1338 \n", + "\n", + " full_text 0 \n", + "0 Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5... None \n", + "1 Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5... None \n", + "2 Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5... None \n", + "3 Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5... None \n", + "4 Terry Cardoso PhD\\n\\n65 Bodbysund 61\\n Suite 5... None \n", + ".. ... ... \n", + "532 Kelly Björgvinsdóttir\\nAdaptive\\n63 Via Verban... None \n", + "533 Laura Gorski\\nMinistry Of Agriculture\\n07 57 a... None \n", + "534 Laura Gorski\\nMinistry Of Agriculture\\n07 57 a... None \n", + "535 Laura Gorski\\nMinistry Of Agriculture\\n07 57 a... None \n", + "536 Laura Gorski\\nMinistry Of Agriculture\\n07 57 a... None \n", + "\n", + "[537 rows x 6 columns]" + ] + }, + "execution_count": 11, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "fns_df = ModelError.get_fns_dataframe(errors,entity='PHONE_NUMBER')\n", + "fns_df" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "presidio", + "language": "python", + "name": "presidio" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.12" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} \ No newline at end of file diff --git a/notebooks/5_Pseudonymization_demo.ipynb b/notebooks/5_Pseudonymization_demo.ipynb new file mode 100644 index 0000000..4bb6f09 --- /dev/null +++ b/notebooks/5_Pseudonymization_demo.ipynb @@ -0,0 +1,193 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## PII data pseudonymization demo\n", + "\n", + "In this demo we call Presidio (through it's Python interface) and then replace the detected entities with fake ones, using the same techniques in the `PresidioDataGenerator` object.\n", + "\n", + "The `PresidioPerturb` class as a wrapper on top of `PresidioDataGenerator` which accepts a presidio analyzer response and creates fake sentences based on the original ones.\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "# install presidio via pip if not yet installed\n", + "\n", + "#!pip install presidio-analyzer\n", + "#!pip install presidio-anonymizer" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "from presidio_analyzer import AnalyzerEngine\n", + "from presidio_evaluator.data_generator import PresidioPseudonymization\n", + "\n", + "import pandas as pd" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "# Instantiate Presidio Analyzer\n", + "\n", + "analyzer = AnalyzerEngine()" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [], + "source": [ + "pseudonymizer = PresidioPseudonymization()" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [ + { + "data": { + "text/plain": [ + "[type: DOMAIN_NAME, start: 57, end: 69, score: 1.0,\n", + " type: PERSON, start: 14, end: 24, score: 0.85]" + ] + }, + "execution_count": 5, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "original_text = \"Hi my name is Doug Funny and this is my website: https://www.dougf.io\"\n", + "\n", + "presidio_response = analyzer.analyze(original_text,language='en')\n", + "presidio_response\n" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [ + { + "data": { + "text/plain": [ + "['Hi my name is Albert Cohen and this is my website: https://http://chapman-downs.info/',\n", + " 'Hi my name is Lisa Miller and this is my website: https://http://benson.org/',\n", + " 'Hi my name is Kathleen Hale and this is my website: https://http://www.garcia.com/',\n", + " 'Hi my name is Michelle Frederick and this is my website: https://https://robinson.com/',\n", + " 'Hi my name is Alicia Santana and this is my website: https://https://www.ray.org/']" + ] + }, + "execution_count": 6, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# Simple pseudonymization\n", + "\n", + "pseudonymizer.pseudonymize(original_text=original_text, presidio_response=presidio_response,count=5)" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": { + "pycharm": { + "name": "#%%\n" + } + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Presidio' response: [type: LOCATION, start: 29, end: 36, score: 0.85]\n", + "-------------\n", + "Fake examples:\n", + "\n", + "Our son R2D2 used to work in Botswana\n", + "Our son R2D2 used to work in American Samoa\n", + "Our son R2D2 used to work in Malawi\n", + "Our son R2D2 used to work in Montenegro\n", + "our son r2d2 used to work in lebanon\n" + ] + } + ], + "source": [ + "# When Presidio fails to detect an entity, it will be available in the fake samples!\n", + "\n", + "text = \"Our son R2D2 used to work in Germany\"\n", + "\n", + "response = analyzer.analyze(text=text,language='en')\n", + "print(f\"Presidio' response: {response}\")\n", + "\n", + "\n", + "fake_samples = pseudonymizer.pseudonymize(original_text=text,presidio_response=response,count=5)\n", + "print(f\"-------------\\nFake examples:\\n\")\n", + "print(*fake_samples, sep = \"\\n\")" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "presidio", + "language": "python", + "name": "presidio" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.12" + } + }, + "nbformat": 4, + "nbformat_minor": 1 +} \ No newline at end of file diff --git a/notebooks/Evaluate Presidio Analyzer.ipynb b/notebooks/Evaluate Presidio Analyzer.ipynb deleted file mode 100644 index 92d2c40..0000000 --- a/notebooks/Evaluate Presidio Analyzer.ipynb +++ /dev/null @@ -1,261 +0,0 @@ -{ - "cells": [ - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "from presidio_evaluator.data_generator import read_synth_dataset\n", - "from presidio_evaluator.evaluation import ModelError, Evaluator\n", - "from presidio_evaluator.models import BaseModel, PresidioAnalyzerWrapper\n", - "from collections import Counter\n", - "\n", - "import pandas as pd\n", - "\n", - "%load_ext autoreload\n", - "%autoreload 2\n", - "\n", - "pd.options.display.max_columns = None\n", - "pd.options.display.width=None" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# Evaluate Presidio Analyzer\n", - "This notebook runs the PresidioAnalyzerEvaluator class on top of synthetic data.\n", - "\n", - "One can perform the following changes:\n", - "1. Replace the synthetic data creation with real data or with other type of synthetic data\n", - "2. Adapt the Presidio `AnalyzerEngine` to a specific engine with a different set of recognizers or configured to be used on different languages\n", - "\n", - "\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### A. Read dataset for evaluation" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "input_samples = read_synth_dataset(\"../data/synth_dataset.txt\")\n", - "print(\"Read {} samples\".format(len(input_samples)))\n", - "input_samples[0]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### B. Descriptive statistics" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "flatten = lambda l: [item for sublist in l for item in sublist]\n", - "\n", - "count_per_entity = Counter([span.entity_type for span in flatten([input_sample.spans for input_sample in input_samples])])\n", - "count_per_entity" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### C. Match the dataset's entity names with Presidio's entity names" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "presidio_entities_map = {\n", - " \"PERSON\": \"PERSON\",\n", - " \"EMAIL_ADDRESS\": \"EMAIL_ADDRESS\",\n", - " \"CREDIT_CARD\": \"CREDIT_CARD\",\n", - " \"FIRST_NAME\": \"PERSON\",\n", - " \"PHONE_NUMBER\": \"PHONE_NUMBER\",\n", - " \"BIRTHDAY\": \"DATE_TIME\",\n", - " \"DATE_TIME\": \"DATE_TIME\",\n", - " \"DOMAIN\": \"DOMAIN\",\n", - " \"CITY\": \"LOCATION\",\n", - " \"ADDRESS\": \"LOCATION\",\n", - " \"NATIONALITY\": \"LOCATION\",\n", - " \"LOCATION\": \"LOCATION\",\n", - " \"IBAN\": \"IBAN_CODE\",\n", - " \"URL\": \"DOMAIN_NAME\",\n", - " \"US_SSN\": \"US_SSN\",\n", - " \"IP_ADDRESS\": \"IP_ADDRESS\",\n", - " \"ORGANIZATION\": \"ORG\",\n", - " \"TITLE\" : \"O\", # skipping evaluation of titles\n", - " \"O\": \"O\",\n", - "}\n", - "\n", - "new_list = Evaluator.align_entity_types(input_samples, presidio_entities_map)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### D. Recalculate statistics on updated dataset" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "## recheck counter\n", - "count_per_entity_new = Counter([span.entity_type for span in flatten([input_sample.spans for input_sample in new_list])])\n", - "count_per_entity_new" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### E. Run the presidio-evaluator framework with Presidio's API as the 'model' at test" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "presidio = PresidioAnalyzerWrapper(entities_to_keep=list(count_per_entity_new.keys()))\n", - "evaluator = Evaluator(model=presidio)\n", - "evaluted_samples = evaluator.evaluate_all(new_list[:100])" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### F. Extract statistics\n", - "- Presicion, recall and F measure are calculated based on a PII/Not PII binary classification per token.\n", - "- Specific entity recall and precision are calculated on the specific PII entity level." - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "evaluation_result = evaluator.calculate_score(evaluted_samples)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "evaluation_result.print()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### G. Analyze wrong predictions" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "errors = evaluation_result.model_errors" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ModelError.most_common_fp_tokens(errors,n=5)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "fps_df = ModelError.get_fps_dataframe(errors,entity='PERSON')\n", - "if fps_df is not None:\n", - " fps_df[['full_text','token','prediction']]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "fns_df = ModelError.get_fns_dataframe(errors,entity='PERSON')\n", - "fns_df" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [] - } - ], - "metadata": { - "kernelspec": { - "display_name": "presidio-research", - "language": "python", - "name": "presidio-research" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.8.8" - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} \ No newline at end of file diff --git a/notebooks/Perturb demo.ipynb b/notebooks/Perturb demo.ipynb deleted file mode 100644 index a4bd7ee..0000000 --- a/notebooks/Perturb demo.ipynb +++ /dev/null @@ -1,211 +0,0 @@ -{ - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "## PII data perturbation demo\n", - "\n", - "In this demo we call Presidio (through it's Python interface) and then replace the detected entities with fake ones, using the same techniques in the `FakeDataGenerator` object.\n", - "\n", - "The `PresidioPerturb` class as a wrapper on top of `FakeDataGenerator` which accepts a presidio analyzer response and creates fake sentences based on the original ones.\n" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "# install presidio via pip if not yet installed\n", - "\n", - "#!pip install presidio-analyzer\n", - "#!pip install presidio-anonymizer" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "from presidio_analyzer import AnalyzerEngine\n", - "from presidio_evaluator.data_generator.presidio_perturb import PresidioPerturb\n", - "\n", - "import pandas as pd" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "# Set up the fake PII data frame\n", - "\n", - "fake_pii_csv = '../presidio_evaluator/data_generator/raw_data/FakeNameGenerator.com_3000.csv'\n", - "\n", - "fake_pii_df = pd.read_csv(fake_pii_csv, encoding='utf-8')\n", - "fake_pii_df.head()" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "# Instantiate Presidio Analyzer\n", - "\n", - "analyzer = AnalyzerEngine()" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "presidio_perturb = PresidioPerturb(fake_pii_df=fake_pii_df)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "original_text = \"Hi my name is Doug Funny and this is my website: https://www.dougf.io/\"\n", - "\n", - "presidio_response = analyzer.analyze(original_text,language='en')\n", - "presidio_response\n" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "# Simple perturbation\n", - "\n", - "presidio_perturb.perturb(original_text=original_text, presidio_response=presidio_response,count=5)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "# Restrict name sets\n", - "presidio_perturb.perturb(original_text=original_text, presidio_response=presidio_response,count=5,\n", - " namesets=['Dutch'])\n" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "# Restrict name set and gender\n", - "presidio_perturb.perturb(original_text=original_text,\n", - " presidio_response=presidio_response,\n", - " count=500,\n", - " namesets=['American','Brazil'], genders=['female'])" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "# When Presidio fails to detect an entity, it will be available in the fake samples!\n", - "\n", - "text = \"Our son asdfhlk used to work in Germany\"\n", - "\n", - "response = analyzer.analyze(text=text,language='en')\n", - "print(f\"Presidio' response: {response}\")\n", - "\n", - "\n", - "fake_samples = presidio_perturb.perturb(original_text=text,presidio_response=response,count=5)\n", - "print(f\"-------------\\nFake examples:\\n\")\n", - "print(*fake_samples, sep = \"\\n\")" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [] - } - ], - "metadata": { - "kernelspec": { - "display_name": "presidio-research", - "language": "python", - "name": "presidio-research" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.8.8" - } - }, - "nbformat": 4, - "nbformat_minor": 1 -} diff --git a/notebooks/data generation/Generate data.ipynb b/notebooks/data generation/Generate data.ipynb deleted file mode 100644 index 876ef05..0000000 --- a/notebooks/data generation/Generate data.ipynb +++ /dev/null @@ -1,240 +0,0 @@ -{ - "cells": [ - { - "cell_type": "code", - "execution_count": null, - "source": [ - "from tqdm import tqdm_notebook as tqdm\n", - "from presidio_evaluator.data_generator.main import generate, read_synth_dataset\n", - "\n", - "import datetime\n", - "import json" - ], - "outputs": [], - "metadata": { - "scrolled": true - } - }, - { - "cell_type": "markdown", - "source": [ - "# Generate fake PII data using Presidio's data generator" - ], - "metadata": {} - }, - { - "cell_type": "markdown", - "source": [ - "Presidio's data generator allows you to generate a synthetic dataset with two preriquisites:\n", - "1. A fake PII csv (We used https://www.fakenamegenerator.com/)\n", - "2. A text file with template sentences or paragraphs. In this file, each PII entity placeholder is written in brackets. The name of the PII entity should be one of the columns in the fake PII csv file.\n", - "\n", - "The generator creates fake sentences based on the provided fake PII csv AND a list of [extension functions](../presidio_evaluator/data_generator/extensions.py) and a few additional 3rd party libraries like `Faker`, and `haikunator`.\n", - "\n", - "\n", - "For example:\n", - "1. **A fake PII csv**:\n", - "\n", - "| FIRST_NAME | LAST_NAME | EMAIL |\n", - "|-------------|-------------|-----------|\n", - "| David | Brown | david.brown@jobhop.com |\n", - "| Mel | Brown | melb@hobjob.com |\n", - "\n", - "\n", - "2. **Templates**:\n", - "\n", - "My name is [FIRST_NAME]\n", - "\n", - "You can email me at [EMAIL]. Thanks, [FIRST_NAME]\n", - "\n", - "What's your last name? It's [LAST_NAME]\n", - "\n", - "Every time I see you falling I get down on my knees and pray\n" - ], - "metadata": {} - }, - { - "cell_type": "markdown", - "source": [ - "### Generate files\n", - "Based on these two prerequisites, a requested number of examples and an output file name:" - ], - "metadata": {} - }, - { - "cell_type": "code", - "execution_count": null, - "source": [ - "EXAMPLES = 100\n", - "SPAN_TO_TAG = True #Whether to create tokens + token labels (tags)\n", - "TEMPLATES_FILE = '../../presidio_evaluator/data_generator/' \\\n", - " 'raw_data/templates.txt'\n", - "KEEP_ONLY_TAGGED = False\n", - "LOWER_CASE_RATIO = 0.1\n", - "IGNORE_TYPES = {\"IP_ADDRESS\", 'US_SSN', 'URL'}\n", - "\n", - "cur_time = datetime.date.today().strftime(\"%B_%d_%Y\")\n", - "\n", - "OUTPUT = \"../../data/generated_size_{}_date_{}.json\".format(EXAMPLES, cur_time)\n", - "\n", - "fake_pii_csv = '../../presidio_evaluator/data_generator/' \\\n", - " 'raw_data/FakeNameGenerator.com_3000.csv'\n", - "utterances_file = TEMPLATES_FILE\n", - "dictionary_path = None\n", - "\n", - "examples = generate(fake_pii_csv=fake_pii_csv,\n", - " utterances_file=utterances_file,\n", - " dictionary_path=dictionary_path,\n", - " output_file=OUTPUT,\n", - " lower_case_ratio=LOWER_CASE_RATIO,\n", - " num_of_examples=EXAMPLES,\n", - " ignore_types=IGNORE_TYPES,\n", - " keep_only_tagged=KEEP_ONLY_TAGGED,\n", - " span_to_tag=SPAN_TO_TAG)" - ], - "outputs": [], - "metadata": { - "scrolled": true - } - }, - { - "cell_type": "markdown", - "source": [ - "To read a dataset file into the InputSample format, use `read_synth_dataset`:" - ], - "metadata": {} - }, - { - "cell_type": "code", - "execution_count": null, - "source": [ - "input_samples = read_synth_dataset(OUTPUT)" - ], - "outputs": [], - "metadata": { - "scrolled": true - } - }, - { - "cell_type": "code", - "execution_count": null, - "source": [ - "input_samples[0]" - ], - "outputs": [], - "metadata": { - "scrolled": true - } - }, - { - "cell_type": "markdown", - "source": [ - "The full structure of each input_sample is the following. It includes different feature values per token as calculated by Spacy" - ], - "metadata": {} - }, - { - "cell_type": "code", - "execution_count": null, - "source": [ - "input_samples[0].to_dict()" - ], - "outputs": [], - "metadata": { - "scrolled": false - } - }, - { - "cell_type": "markdown", - "source": [ - "#### Verify randomness of dataset" - ], - "metadata": {} - }, - { - "cell_type": "code", - "execution_count": null, - "source": [ - "from collections import Counter\n", - "count_per_template_id = Counter([sample.metadata['Template#'] for sample in input_samples])\n", - "for key in sorted(count_per_template_id):\n", - " print(\"{}: {}\".format(key,count_per_template_id[key]))\n", - " \n", - "print(sum(count_per_template_id.values()))" - ], - "outputs": [], - "metadata": { - "scrolled": true - } - }, - { - "cell_type": "markdown", - "source": [ - "#### Transform to the CONLL structure:" - ], - "metadata": {} - }, - { - "cell_type": "code", - "execution_count": null, - "source": [ - "from presidio_evaluator import InputSample\n", - "\n", - "conll = InputSample.create_conll_dataset(input_samples)\n", - "conll.head(5)" - ], - "outputs": [], - "metadata": { - "scrolled": true - } - }, - { - "cell_type": "markdown", - "source": [ - "#### Copyright notice:\n", - "\n", - "\n", - "Data generated for evaluation was created using Fake Name Generator.\n", - "\n", - "Fake Name Generator identities by the [Fake Name Generator](https://www.fakenamegenerator.com/) \n", - "are licensed under a [Creative Commons Attribution-Share Alike 3.0 United States License](http://creativecommons.org/licenses/by-sa/3.0/us/). Fake Name Generator and the Fake Name Generator logo are trademarks of Corban Works, LLC." - ], - "metadata": {} - }, - { - "cell_type": "code", - "execution_count": null, - "source": [], - "outputs": [], - "metadata": { - "collapsed": false, - "pycharm": { - "name": "#%%\n" - } - } - } - ], - "metadata": { - "kernelspec": { - "name": "python3", - "display_name": "Python 3.8.11 64-bit ('presidio': conda)" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.8.11" - }, - "interpreter": { - "hash": "2509fbe9adc3579fd0ef23e6a2c6fb50cb745caa174aafdf017283479e60bc43" - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} diff --git a/notebooks/data generation/from_datasets/CONLL_NER_dataset to synth.ipynb b/notebooks/data generation/from_datasets/CONLL_NER_dataset to synth.ipynb deleted file mode 100644 index ca53e16..0000000 --- a/notebooks/data generation/from_datasets/CONLL_NER_dataset to synth.ipynb +++ /dev/null @@ -1,651 +0,0 @@ -{ - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "This notebook takes the CONLL2003 dataset using deepavlov, and creates templates (utterances with placeholders) for a PII synthetic data generator to use in order to create new sentences.\n", - "\n", - "The notebook additionally introduces two new entities: TITLE and ROLE, in order to overcome cases like \"UK David Scott called his wife\", where the original sentence is \"UK Prime Minister Boris Johnson called his wife\" as \"Prime Minister\" was originally tagged as PER in the original dataset. Same logic goes for titles, like Mr., Mrs., Ms." - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "import pandas as pd\n", - "pd.options.display.max_rows = 4000\n", - "pd.set_option('display.max_colwidth', -1)\n", - "\n", - "from presidio_evaluator.dataset_formatters import CONLL2003Formatter()\n" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "is_executing": false - } - }, - "outputs": [], - "source": [ - "conll_formatter = CONLL2003Formatter()\n", - "train_samples = conll_formatter.to_input_samples(fold=\"train\")" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### To pandas + add sentence_idx" - ] - }, - { - "cell_type": "code", - "execution_count": 7, - "metadata": {}, - "outputs": [], - "source": [ - "new_dataset = [list(zip(a,b)) for a,b in dataset['train']]\n", - "df_list = []\n", - "sentence_id = 0\n", - "for sentence in new_dataset:\n", - " \n", - " df = pd.DataFrame(sentence,columns = [\"word\",\"tag\"])\n", - " df[\"sentence_idx\"] = sentence_id\n", - " sentence_id+=1\n", - " df_list.append(df)\n", - "ner_dataset = pd.concat(df_list)\n" - ] - }, - { - "cell_type": "code", - "execution_count": 15, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['sentence_idx']==12]" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": {}, - "outputs": [], - "source": [ - "sentences = ner_dataset.groupby('sentence_idx')['word'].apply(lambda x: \" \".join(x))" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "metadata": {}, - "outputs": [], - "source": [ - "print(sentences[:5])" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Example sentence:" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['sentence_idx']==3]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# Unique entities\n", - "ner_dataset['tag'].unique()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Replace tokenization replacements" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['word'] = ner_dataset['word']\\\n", - ".replace('-LRB-','(')\\\n", - ".replace('-RRB-',')')\\\n", - ".replace('-LCB-','(')\\\n", - ".replace('-RCB-',')')\\\n", - ".replace('``','\"')\\\n", - ".replace(\"''\",'\"')\\\n", - ".replace('/.','.')" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# helper columns:\n", - "ner_dataset['prev-word'] = ner_dataset.word.shift(1)\n", - "ner_dataset['prev-prev-word'] = ner_dataset['word'].shift(2)\n", - "ner_dataset['next-word'] = ner_dataset['word'].shift(-1)\n", - "ner_dataset['next-next-word'] = ner_dataset['word'].shift(-2)\n", - "ner_dataset['prev-tag'] = ner_dataset['tag'].shift(1)\n", - "ner_dataset['next-tag'] = ner_dataset['tag'].shift(-1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Remove unneeded (non PII) entities:" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "TAGS_TO_IGNORE = ['CARDINAL','FAC','LAW','LANGUAGE','MISC','TIME','DATE','ORDINAL','EVENT','QUANTITY','WORK_OF_ART','MONEY','PRODUCT','PERCENT']\n", - "def remote_unwanted_tags(x):\n", - " if len(x)>1 and x[2:] in TAGS_TO_IGNORE:\n", - " return 'O'\n", - " else:\n", - " return x\n", - "\n", - "ner_dataset['tag'] = ner_dataset['tag'].apply(remote_unwanted_tags)\n", - "ner_dataset[ner_dataset['sentence_idx']==3]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Remove PERSON tags if preceding word is 'the' (e.g. the Bush administration)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# removing PERSON tags from sentences with a 'the' preceding the person:\n", - "\n", - "def remove_tag_if_the_person(row):\n", - " if row['prev-word'].lower() == 'the' and row['tag']=='B-PERSON':\n", - " return 'O'\n", - " elif row['prev-prev-word'].lower() == 'the' and row['prev-tag']=='I-PERSON' and row['tag']=='B-PERSON':\n", - " return 'O'\n", - " return row['tag']\n", - "\n", - "ner_dataset['prev-word']=ner_dataset['prev-word'].astype('str')\n", - "ner_dataset['prev-prev-word']=ner_dataset['prev-prev-word'].astype('str')\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_the_person,axis=1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Remove tag from 's (Joe Wilson's cat)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "def remove_tag_if_apostraphe_after_tag(row):\n", - " if row['prev-tag'] != 'O' and row['word']==\"'s\":\n", - " return 'O'\n", - " return row['tag']\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_the_person,axis=1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Re-tag words from dictionaries (countries, nationalities, roles, titles)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Nationalities and countries:" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "nationalities = pd.read_csv(\"../raw_data/nationalities.csv\")\n", - "nationalities.head()" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "\"algeria\" in nationalities['country'].values" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "\n", - "ner_dataset['metadata'] = None\n", - "\n", - "def get_nationality_as_metadata(row):\n", - " if row['word'].lower() in nationalities['country'].values:\n", - " return 'COUNTRY'\n", - " elif row['word'].lower() in nationalities['nationality'].values:\n", - " return 'NATIONALITY'\n", - " elif row['word'].lower() in nationalities['man'].values:\n", - " return 'NATION_MAN'\n", - " elif row['word'].lower() in nationalities['woman'].values:\n", - " return 'NATION_WOMAN'\n", - " elif row['word'].lower() in nationalities['plural'].values:\n", - " return 'NATION_PLURAL'\n", - " return row['metadata']\n", - "\n", - "row = pd.Series({'word':'Frenchwoman','metadata':None})\n", - "print(\"Example: Frenchwoman -> \",get_nationality_as_metadata(row))\n", - "\n", - "def update_tag_based_on_metadata(row):\n", - " if row['metadata'] is not None:\n", - " return \"B-\"+row['metadata']\n", - " else:\n", - " return row['tag']\n", - "\n" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['metadata'] = ner_dataset.apply(get_nationality_as_metadata, axis=1)\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Titles" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "MALE_TITLES = ['mr', 'dr', 'professor', 'eng','prof','doctor']\n", - "FEMALE_TITLES = ['mrs', 'ms', 'miss', 'dr', 'professor', 'eng', 'prof','doctor']\n", - "\n", - "def get_title_as_metadata(row):\n", - " if row['word'].lower() in MALE_TITLES:\n", - " return 'MALE_TITLE'\n", - " elif row['word'].lower() in FEMALE_TITLES:\n", - " return 'FEMALE_TITLE'\n", - " return row['metadata']\n", - "\n", - "\n", - "def update_title_tag_if_missing(row):\n", - " if row['word'].lower() in MALE_TITLES and row['tag']=='O':\n", - " return 'B-MALE_TITLE'\n", - " elif row['word'].lower() in FEMALE_TITLES and row['tag']=='O':\n", - " return 'B-FEMALE_TITLE'\n", - " else:\n", - " return row['tag']\n", - "\n", - "ner_dataset['metadata'] = ner_dataset.apply(get_title_as_metadata,axis=1)\n", - "ner_dataset['tag'] = ner_dataset.apply(update_title_tag_if_missing,axis=1)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['sentence_idx']==18]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Remove 'the' from 'the NORP' if NORP is not in nationalities list." - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "def remove_tag_if_the_norp(row):\n", - " if row['prev-word'].lower() == 'the' and row['tag']=='B-NORP' and row['metadata'] is None:\n", - " return 'O'\n", - " elif row['prev-prev-word'].lower() == 'the' and row['prev-tag']=='I-NORP' and row['tag']=='B-NORP' and row['metadata'] is None:\n", - " return 'O'\n", - " return row['tag']\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_the_norp,axis=1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Remove sentences with adjacent different entities (e.g calling from New York Larry King)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['entity'] = ner_dataset['tag'].str[2:]\n", - "ner_dataset['next-entity']=ner_dataset['next-tag'].str[2:]\n", - "adjacent_idc = (ner_dataset['tag'] != 'O') & (ner_dataset['next-tag'] != 'O') & (ner_dataset['entity'] != ner_dataset['next-entity'])\n", - "sentences_to_remove = ner_dataset[adjacent_idc]['sentence_idx'].values\n", - "sentences_to_remove\n", - "\n", - "ner_dataset=ner_dataset[~ner_dataset['sentence_idx'].isin(sentences_to_remove)]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Update tag for discovered metadata values (eg. nationalities)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['tag'] = ner_dataset.apply(update_tag_based_on_metadata, axis=1)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Create templates base on NER dataset\n", - "Here we create the actual templates + handle multiple weird cases that should cause the template sentences to be weird. Note that a manual run over the templates dataset is still required after this step." - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "import re\n", - "class SentenceGetter(object):\n", - " \n", - " def __init__(self, dataset):\n", - " self.n_sent = 1\n", - " self.dataset = dataset\n", - " self.empty = False\n", - " agg_func = lambda s: [(w, t) for w,t in zip(s[\"word\"].values.tolist(),\n", - " s[\"tag\"].values.tolist())]\n", - " self.grouped = self.dataset.groupby(\"sentence_idx\").apply(agg_func)\n", - " self.sentences = [s for s in self.grouped]\n", - " \n", - " def get_next(self):\n", - " try:\n", - " s = self.grouped[\"Sentence: {}\".format(self.n_sent)]\n", - " self.n_sent += 1\n", - " return s\n", - " except:\n", - " return None\n", - " \n", - " @staticmethod \n", - " def cleanse_template(template, ents):\n", - " # Remove whitespace before certain punctuation marks\n", - " template = re.sub(r'\\s([?,:.!](?:|$))+', r'\\1', template)\n", - " \n", - " # Remove whitespaces within double quotes\n", - " template = re.sub('\\\"\\s*([^\\\"]*?)\\s*\\\"', r'\"\\1\"', template) \n", - " \n", - " # Remove whitespaces within quotes\n", - " template = re.sub(\"\\'\\s*([^\\']*?)\\s*\\'\", r\"'\\1'\", template) \n", - " \n", - " # Remove whitespaces within parentheses\n", - " template = re.sub('\\(\\s*([^\\(]*?)\\s*\\)', r'(\\1)', template) \n", - " \n", - " for ent in ents:\n", - " #Turn PERSON PERSON into PERSON\n", - " duplicates = \"[{}] [{}]\".format(ent,ent)\n", - " template = template.replace(duplicates,\"[{}]\".format(ent))\n", - " \n", - " \n", - " # Replace additional weird templates:\n", - " to_replace = {\n", - " \"[LOCATION] says\" : \"[PERSON] says\",\n", - " \"[LOCATION] said\" : \"[PERSON] said\",\n", - " \"[ORGANIZATION] of [ORGANIZATION]\" : \"[ORGANIZATION]\",\n", - " \"the [COUNTRY]\" : \"[COUNTRY]\",\n", - " \" 's \":\"'s\",\n", - " \"] 's \":\"]'s \",\n", - " \"] 's,\":\"]'s,\",\n", - " \"] 's.\":\"]'s.\",\n", - " \" n't\" : \"n't\",\n", - " \"/?\":\"?\",\n", - " \"%u\":\"u\",\n", - " \"%m\":\"m\",\n", - " \"%e\":\"e\", \n", - " \"%h\":\"h\", \n", - " \"%a\":\"a\",\n", - " \" %\":\"%\",\n", - " \" ?\":\"?\",\n", - " \" /?\":\"?\",\n", - " \" ' .\":\"'.\",\n", - " \"[ \":\"(\",\n", - " \" ]\":\")\",\n", - " \"[PERSON] -- [PERSON]\":\"[PERSON]\",\n", - " \"[COUNTRY] -- [ORGANIZATION]\":\"[ORGANIZATION]\",\n", - " \"Jews\" : \"[NATIONALITY]\",\n", - " \"Chinese\" : \"[NATIONALITY]\",\n", - " \"Dutch\" : \"[NATIONALITY]\",\n", - " \"[LOCATION], [LOCATION]\":\"[LOCATION]\",\n", - " \"[LOCATION] [ORGANIZATION]\":\"[ORGANIZATION]\"\n", - " }\n", - " \n", - " for weird in to_replace.keys():\n", - " #if weird in template:\n", - " # print(\"Weird sentence\",template)\n", - " template = template.replace(weird,to_replace[weird])\n", - " \n", - " template = template.replace(\" -- \",\" - \")\n", - " \n", - " #Ignore templates that are incomplete\n", - " if \"/-\" in template:\n", - " template = \"\"\n", - " \n", - " #Ignore templates that have numbers after the end or start of the entity\n", - " if len(re.findall(r\"\\]\\s[0-9]\",template)) > 0:\n", - " template = \"\"\n", - " \n", - " if len(re.findall(r\"[0-9]\\s\\[\",template)) > 0:\n", - " template = \"\"\n", - " \n", - " if len(re.findall(r\"[0-9].\\s\\[\",template)) > 0:\n", - " template = \"\"\n", - " \n", - " \n", - " if \"[PERSON] ([COUNTRY])\" in template:\n", - " template = \"\"\n", - " if \"[PERSON] ([LOCATION])\" in template:\n", - " template = \"\"\n", - " \n", - " if template.count('\"') == 1:\n", - " template = template.replace('\"','')\n", - "\n", - " return template\n", - " \n", - " @staticmethod \n", - " def get_template(grouped,entity_name_replace_dict):\n", - " template = \"\"\n", - " i=0\n", - " cur_index = 0\n", - " ents = []\n", - " for token in grouped:\n", - " # remove brackets as they interefere with the data generation process\n", - " token_text = token[0].replace(\"[\", \"(\").replace(\"]\",\")\")\n", - " token_text = token[0].replace(\"{\", \"(\").replace(\"}\",\")\")\n", - " token_tag = token[1]\n", - " token_entity = token_tag[2:] if len(token_tag)>1 else token_tag\n", - " \n", - " if token_entity == 'O':\n", - " template += \" \" + token_text\n", - " elif 'B-' in token_tag and token_entity not in TAGS_TO_IGNORE:\n", - " #print(\"found entity: {}\".format(token_entity))\n", - " ent = entity_name_replace_dict[token_entity]\n", - " ents.append(ent)\n", - " \n", - " template += \" [\" + ent + \"]\"\n", - " #print(\"template: \",template)\n", - " \n", - " template = SentenceGetter.cleanse_template(template, ents)\n", - " \n", - " return template.strip()\n", - " \n", - "getter = SentenceGetter(ner_dataset)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ENTITIES_DICTIONARY = {\"PERSON\":\"PERSON\",\n", - " \"PER\":\"PERSON\",\n", - " \"GPE\":\"COUNTRY\",\n", - " \"NORP\":\"LOCATION\",\n", - " \"LOC\":\"LOCATION\",\n", - " \"ORG\":\"ORGANIZATION\",\n", - " \"MALE_TITLE\":\"MALE_TITLE\",\n", - " \"FEMALE_TITLE\":\"FEMALE_TITLE\",\n", - " \"COUNTRY\":\"COUNTRY\",\n", - " \"NATIONALITY\":\"NATIONALITY\",\n", - " \"NATION_WOMAN\":\"NATION_WOMAN\",\n", - " \"NATION_MAN\":\"NATION_MAN\",\n", - " \"NATION_PLURAL\":\"NATION_PLURAL\"}\n", - "\n", - "sentences = getter.sentences\n", - "\n", - "sent_id = 445\n", - "\n", - "print(\"original:\",sentences[sent_id])\n", - "print(\"template:\", getter.get_template(sentences[sent_id],entity_name_replace_dict=ENTITIES_DICTIONARY))" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "all_templates = [getter.get_template(sentence,entity_name_replace_dict=ENTITIES_DICTIONARY) for sentence in sentences]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "print(\"original length of templates: {}\".format(len(all_templates)))\n", - "all_templates = list(set(all_templates))\n", - "print(\"length after duplicates removal: {}\".format(len(all_templates)))" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Save templates to file:" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "with open(\"../raw_data/conll_based_templates.txt\",\"w+\",encoding='utf-8') as f:\n", - " for template in all_templates:\n", - " f.write(\"%s\\n\" % template) " - ] - } - ], - "metadata": { - "kernelspec": { - "display_name": "presidio-research", - "language": "python", - "name": "presidio-research" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.7.9" - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} diff --git a/notebooks/data generation/from_datasets/NER_dataset to synth.ipynb b/notebooks/data generation/from_datasets/NER_dataset to synth.ipynb deleted file mode 100644 index ec2446e..0000000 --- a/notebooks/data generation/from_datasets/NER_dataset to synth.ipynb +++ /dev/null @@ -1,396 +0,0 @@ -{ - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Generate new examples based on this dataset: \n", - "https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus\n", - "\n", - "This notebook takes the ner dataset from the previous link, and creates templates (utterances with placeholders) for a PII synthetic data generator to use in order to create new sentences.\n", - "Note that due to the nature of the tagging, there might be weird output sentences. For example:\n", - "\n", - "- The same entity shows multiple times in sentence: \"I travel from Argentina to Argentina\"\n", - "- Bad grammer due to the lack of inflection and changes to nouns due to context: \"*The statement said no Denmark or India-led troops were killed*\" instead of \"*The statement said no Danish or Indian led troops were killed*\"\n", - "- Unrealistic sentences due to change in entities: \"Prime minister Lebron James enters the government building in Kuala Lumpur\"\n", - "\n", - "\n", - "The notebook additionally introduces two new entities: TITLE and ROLE, in order to overcome cases like \"UK David Scott called his wife\", where the original sentence is \"UK Prime Minister Boris Johnson called his wife\" as \"Prime Minister\" was originally tagged as PER in the original dataset. Same logic goes for titles, like Mr., Mrs., Ms." - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "import pandas as pd" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "#First, Download ner.csv from https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus\n", - "ner_dataset = pd.read_csv(\"ner.csv\",encoding = \"ISO-8859-1\", error_bad_lines=False)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset.columns" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "len(ner_dataset)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset = ner_dataset.drop_duplicates()\n", - "len(ner_dataset)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Example sentence:" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['sentence_idx']==13][['sentence_idx','word','tag','prev-word','prev-prev-word','next-word']]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### New entities - Title and Role\n", - "\n", - "- **Title**: Mr., Mrs., Professor, Doctor, ...\n", - "- **Role**: President, Secretary General, U.N. Secretary, ..." - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Quick exploratory analysis of frequencies:\n", - "- First PER token\n", - "- Second PER token\n", - "- First and second PER token\n", - "- One before and first tokens of PER" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# Evaluate words before I-per\n", - "bper = ner_dataset[ner_dataset['tag']=='B-per']\n", - "bper_tokens = bper['word']\n", - "prev_bper_token = bper['prev-word']\n", - "next_bper_token = bper['next-word']\n", - "two_prev_tokens = zip(prev_bper_token, bper_tokens)\n", - "two_next_tokens = zip(bper_tokens, next_bper_token)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "from collections import Counter\n", - "print(\"20 most common PER token frequencies:\")\n", - "Counter(bper_tokens).most_common(20)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "print(\"20 most common previous and first PER token frequencies:\")\n", - "Counter(two_prev_tokens).most_common(20)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "print(\"20 most common first and second PER token frequencies:\")\n", - "Counter(two_next_tokens).most_common(20)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# Lists of titles and roles to update as ttl, rol\n", - "TITLES = ['Mr.','Ms.','Mrs.']\n", - "ROLES = ['President','General','Senator','Secretary-General','Minister','General']\n", - "BIGRAMS_ROLES = [('Prime','Minister'),('prime','minister'),('U.S.','President'),\n", - " ('Venezuelan', 'President'),('Vice','President'), ('Foreign', 'Minister'),\n", - " ('U.S.','Secretary'),('U.N.','Secretary'),('Defence','Secretary')]\n" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# Update title and per for most common cases\n", - "\n", - "def fix_bigram_title(df, row,index,first='Prime',second='Minister',tag='ttl'):\n", - " if row['word'] == first and row['next-word'] == second and 'per' in row['tag']:\n", - " df.loc[index,'tag'] = 'B-{}'.format(tag)\n", - " elif row['word'] == second and row['prev-word'] == first and 'per' in row['tag']:\n", - " df.loc[index,'tag'] = 'I-{}'.format(tag)\n", - " elif row['tag']== 'I-per' and row['prev-word'] == second and 'per' in row['tag']:\n", - " df.loc[index,'tag'] = 'B-per'\n", - "\n", - "def fix_unigram_title(df, prev_row,prev_index, row , index, title='President',tag='ttl'):\n", - " #print(row)\n", - " if prev_row['word'] == title and prev_row['tag'] == 'B-per' and row['tag']=='I-per':\n", - " df.loc[prev_index,'tag']='B-{}'.format(tag)\n", - " df.loc[index,'tag'] = 'B-per'\n", - "\n", - "prev_row = None\n", - "prev_index = None\n", - "for index, row in ner_dataset.iterrows():\n", - " # Handle 'Prime Minister'\n", - " for bigram in BIGRAMS_ROLES:\n", - " fix_bigram_title(ner_dataset,row,index,bigram[0],bigram[1],'rol')\n", - "\n", - " if prev_row is not None:\n", - " for title in TITLES:\n", - " fix_unigram_title(df=ner_dataset,prev_row=prev_row,prev_index=prev_index,row=row,index=index,title=title,tag='ttl')\n", - " for role in ROLES:\n", - " fix_unigram_title(ner_dataset,prev_row,prev_index,row,index,role,'rol')\n", - "\n", - " prev_row = row\n", - " prev_index = index" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['sentence_idx']==13][['sentence_idx','word','tag','prev-word','prev-prev-word','next-word']]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# keep only relevant columns\n", - "dataset = ner_dataset[['sentence_idx','word','tag']]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "dataset.to_csv(\"../../../datasets/ner_with_titles.csv\",encoding = \"ISO-8859-1\")" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Create templates base on NER dataset" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "import re\n", - "class SentenceGetter(object):\n", - " \n", - " def __init__(self, dataset):\n", - " self.n_sent = 1\n", - " self.dataset = dataset\n", - " self.empty = False\n", - " agg_func = lambda s: [(w, t) for w,t in zip(s[\"word\"].values.tolist(),\n", - " s[\"tag\"].values.tolist())]\n", - " self.grouped = self.dataset.groupby(\"sentence_idx\").apply(agg_func)\n", - " self.sentences = [s for s in self.grouped]\n", - " \n", - " def get_next(self):\n", - " try:\n", - " s = self.grouped[\"Sentence: {}\".format(self.n_sent)]\n", - " self.n_sent += 1\n", - " return s\n", - " except:\n", - " return None\n", - " \n", - " @staticmethod \n", - " def get_template(grouped,entity_name_replace_dict=None):\n", - " TAGS_TO_IGNORE = ['nat','eve','art','tim']\n", - " template = \"\"\n", - " i=0\n", - " cur_index = 0\n", - " ents = []\n", - " for token in grouped:\n", - " token_text = token[0].replace(\"[\", \"\").replace(\"]\",\"\")\n", - " token_tag = token[1]\n", - " if token_tag == 'O':\n", - " template += \" \" + token_text\n", - " elif 'B-' in token_tag and token_tag[2:] not in TAGS_TO_IGNORE:\n", - " if entity_name_replace_dict:\n", - " ent = entity_name_replace_dict[token[1][2:]]\n", - " else:\n", - " ent = token_tag[2:]\n", - " ents.append(ent)\n", - " template += \" [\" + ent + \"]\"\n", - " template = re.sub(r'\\s([?,\\':.!\"](?:|$))+', r'\\1', template)\n", - " \n", - " for ent in ents:\n", - " weird = \"[{}] [{}]\".format(ent,ent)\n", - " template = template.replace(weird,\"[{}]\".format(ent))\n", - " \n", - " #remove additional weird combinations:\n", - " \n", - " to_replace = {\n", - " \"[COUNTRY] [ROLE] [PERSON]\": \"[ROLE] [PERSON]\",\n", - " \"[COUNTRY] [ROLE]\" : \"[ROLE]\",\n", - " \"[ORGANIZATION] [ROLE] [PERSON]\" : \"[ORGANIZATION]'s [ROLE] [PERSON]\",\n", - " \"[COUNTRY] [LOCATION]\" : \"[LOCATION]\",\n", - " \"[LOCATION] [COUNTRY]\": \"[LOCATION]\",\n", - " \"[PERSON] [COUNTRY]\" : \"[PERSON]\",\n", - " \"[PERSON] [LOCATION]\" : \"[PERSON]\",\n", - " \"[COUNTRY] [PERSON]\" : \"[PERSON]\",\n", - " \"[LOCATION] [PERSON]\" : \"[PERSON]\",\n", - " \"The [ORGANIZATION]\" : \"[ORGANIZATION]\",\n", - " \"[PERSON] [ORGANIZATION]\" : \"[PERSON]\",\n", - " \"of [ORGANIZATION] [PERSON]\" : \"of [ORGANIZATION], [PERSON]\",\n", - " \"[ORGANIZATION] [PERSON]\" : \"[PERSON]\",\n", - " \"[PERSON] [PERSON]\": \"[PERSON]\",\n", - " \"[LOCATION] says\" : \"[PERSON] says\",\n", - " \"[LOCATION] said\" : \"[PERSON] said\"\n", - " \n", - " \n", - " }\n", - " \n", - " for weird in to_replace.keys():\n", - " template = template.replace(weird,to_replace[weird])\n", - " \n", - " return template.strip()\n", - " \n", - "getter = SentenceGetter(dataset)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ENTITIES_DICTIONARY = {\"per\":\"PERSON\",\"gpe\":\"COUNTRY\",\"geo\":\"LOCATION\",\"org\":\"ORGANIZATION\",'ttl':'TITLE','rol':'ROLE'}\n", - "\n", - "sentences = getter.sentences\n", - "print(\"original:\",sentences[12])\n", - "print(\"template:\", getter.get_template(sentences[12],entity_name_replace_dict=ENTITIES_DICTIONARY))" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "new_templates = [SentenceGetter.get_template(sentence, ENTITIES_DICTIONARY) for sentence in sentences]\n", - "new_templates[:5]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# save to file\n", - "\n", - "with open(\"../../presidio_evaluator/data_generator/raw_data/new_templates2.txt\",\"w+\", encoding = \"ISO-8859-1\") as f:\n", - " for template in new_templates:\n", - " f.write(\"%s\\n\" % template)\n", - " " - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [] - } - ], - "metadata": { - "kernelspec": { - "display_name": "Python 3", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.7.4" - }, - "pycharm": { - "stem_cell": { - "cell_type": "raw", - "source": [], - "metadata": { - "collapsed": false - } - } - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} diff --git a/notebooks/data generation/from_datasets/OntoNotes_dataset to synth.ipynb b/notebooks/data generation/from_datasets/OntoNotes_dataset to synth.ipynb deleted file mode 100644 index 69b85f1..0000000 --- a/notebooks/data generation/from_datasets/OntoNotes_dataset to synth.ipynb +++ /dev/null @@ -1,664 +0,0 @@ -{ - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "This notebook takes the ontonoes ner dataset, and creates templates (utterances with placeholders) for a PII synthetic data generator to use in order to create new sentences.\n", - "\n", - "The notebook additionally introduces two new entities: TITLE and ROLE, in order to overcome cases like \"UK David Scott called his wife\", where the original sentence is \"UK Prime Minister Boris Johnson called his wife\" as \"Prime Minister\" was originally tagged as PER in the original dataset. Same logic goes for titles, like Mr., Mrs., Ms." - ] - }, - { - "cell_type": "code", - "execution_count": 22, - "metadata": {}, - "outputs": [], - "source": [ - "import pandas as pd\n", - "pd.options.display.max_rows = 4000\n", - "pd.set_option('display.max_colwidth', -1)" - ] - }, - { - "cell_type": "code", - "execution_count": 23, - "metadata": {}, - "outputs": [], - "source": [ - "## Download OntoNotes data\n", - "ontonotes = \"\"" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### To pandas + add sentence_idx" - ] - }, - { - "cell_type": "code", - "execution_count": 24, - "metadata": {}, - "outputs": [], - "source": [ - "df_list = []\n", - "sentence_id = 0\n", - "for sentence in ontonotes:\n", - " \n", - " df = pd.DataFrame(sentence,columns = [\"word\",\"tag\"])\n", - " df[\"sentence_idx\"] = sentence_id\n", - " sentence_id+=1\n", - " df_list.append(df)\n", - "ner_dataset = pd.concat(df_list)\n", - "ner_dataset.head(10)" - ] - }, - { - "cell_type": "code", - "execution_count": 25, - "metadata": {}, - "outputs": [], - "source": [ - "sentences = ner_dataset.groupby('sentence_idx')['word'].apply(lambda x: \" \".join(x))" - ] - }, - { - "cell_type": "code", - "execution_count": 26, - "metadata": {}, - "outputs": [], - "source": [ - "print(sentences[:5])" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Example sentence:" - ] - }, - { - "cell_type": "code", - "execution_count": 27, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['sentence_idx']==3]" - ] - }, - { - "cell_type": "code", - "execution_count": 28, - "metadata": {}, - "outputs": [], - "source": [ - "# Unique entities\n", - "ner_dataset['tag'].unique()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Replace tokenization replacements" - ] - }, - { - "cell_type": "code", - "execution_count": 29, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['word'] = ner_dataset['word']\\\n", - ".replace('-LRB-','(')\\\n", - ".replace('-RRB-',')')\\\n", - ".replace('-LCB-','(')\\\n", - ".replace('-RCB-',')')\\\n", - ".replace('``','\"')\\\n", - ".replace(\"''\",'\"')\\\n", - ".replace('/.','.')" - ] - }, - { - "cell_type": "code", - "execution_count": 30, - "metadata": {}, - "outputs": [], - "source": [ - "# helper columns:\n", - "ner_dataset['prev-word'] = ner_dataset.word.shift(1)\n", - "ner_dataset['prev-prev-word'] = ner_dataset['word'].shift(2)\n", - "ner_dataset['next-word'] = ner_dataset['word'].shift(-1)\n", - "ner_dataset['next-next-word'] = ner_dataset['word'].shift(-2)\n", - "ner_dataset['prev-tag'] = ner_dataset['tag'].shift(1)\n", - "ner_dataset['next-tag'] = ner_dataset['tag'].shift(-1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Remove unneeded (non PII) entities:" - ] - }, - { - "cell_type": "code", - "execution_count": 31, - "metadata": {}, - "outputs": [], - "source": [ - "TAGS_TO_IGNORE = ['CARDINAL','FAC','LAW','LANGUAGE','TIME','DATE','ORDINAL','EVENT','QUANTITY','WORK_OF_ART','MONEY','PRODUCT','PERCENT']\n", - "def remote_unwanted_tags(x):\n", - " if len(x)>1 and x[2:] in TAGS_TO_IGNORE:\n", - " return 'O'\n", - " else:\n", - " return x\n", - "\n", - "ner_dataset['tag'] = ner_dataset['tag'].apply(remote_unwanted_tags)\n", - "ner_dataset[ner_dataset['sentence_idx']==3]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Remove PERSON tags if preceding word is 'the' (e.g. the Bush administration)" - ] - }, - { - "cell_type": "code", - "execution_count": 32, - "metadata": {}, - "outputs": [], - "source": [ - "# removing PERSON tags from sentences with a 'the' preceding the person:\n", - "\n", - "def remove_tag_if_the_person(row):\n", - " if row['prev-word'].lower() == 'the' and row['tag']=='B-PERSON':\n", - " return 'O'\n", - " elif row['prev-prev-word'].lower() == 'the' and row['prev-tag']=='I-PERSON' and row['tag']=='B-PERSON':\n", - " return 'O'\n", - " return row['tag']\n", - "\n", - "ner_dataset['prev-word']=ner_dataset['prev-word'].astype('str')\n", - "ner_dataset['prev-prev-word']=ner_dataset['prev-prev-word'].astype('str')\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_the_person,axis=1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Remove tag from 's (Joe Wilson's cat)" - ] - }, - { - "cell_type": "code", - "execution_count": 33, - "metadata": {}, - "outputs": [], - "source": [ - "def remove_tag_if_apostraphe_after_tag(row):\n", - " if row['prev-tag'] != 'O' and row['word']==\"'s\":\n", - " return 'O'\n", - " return row['tag']\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_the_person,axis=1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Re-tag words from dictionaries (countries, nationalities, roles, titles)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Nationalities and countries:" - ] - }, - { - "cell_type": "code", - "execution_count": 34, - "metadata": {}, - "outputs": [], - "source": [ - "nationalities = pd.read_csv(\"../raw_data/nationalities.csv\")\n", - "nationalities.head()" - ] - }, - { - "cell_type": "code", - "execution_count": 35, - "metadata": {}, - "outputs": [], - "source": [ - "\"algeria\" in nationalities['country'].values" - ] - }, - { - "cell_type": "code", - "execution_count": 36, - "metadata": {}, - "outputs": [], - "source": [ - "\n", - "ner_dataset['metadata'] = None\n", - "\n", - "def get_nationality_as_metadata(row):\n", - " if row['word'].lower() in nationalities['country'].values:\n", - " return 'COUNTRY'\n", - " elif row['word'].lower() in nationalities['nationality'].values:\n", - " return 'NATIONALITY'\n", - " elif row['word'].lower() in nationalities['man'].values:\n", - " return 'NATION_MAN'\n", - " elif row['word'].lower() in nationalities['woman'].values:\n", - " return 'NATION_WOMAN'\n", - " elif row['word'].lower() in nationalities['plural'].values:\n", - " return 'NATION_PLURAL'\n", - " return row['metadata']\n", - "\n", - "row = pd.Series({'word':'Frenchwoman','metadata':None})\n", - "print(\"Example: Frenchwoman -> \",get_nationality_as_metadata(row))\n", - "\n", - "def update_tag_based_on_metadata(row):\n", - " if row['tag'] != 'O' and row['metadata'] is not None:\n", - " return row['tag'][:2] + row['metadata']\n", - " else:\n", - " return row['tag']\n", - "\n" - ] - }, - { - "cell_type": "code", - "execution_count": 37, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['metadata'] = ner_dataset.apply(get_nationality_as_metadata, axis=1)\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Titles" - ] - }, - { - "cell_type": "code", - "execution_count": 38, - "metadata": {}, - "outputs": [], - "source": [ - "MALE_TITLES = ['mr', 'dr', 'professor', 'eng','prof','doctor']\n", - "FEMALE_TITLES = ['mrs', 'ms', 'miss', 'dr', 'professor', 'eng', 'prof','doctor']\n", - "\n", - "def get_title_as_metadata(row):\n", - " if row['word'].lower() in MALE_TITLES:\n", - " return 'MALE_TITLE'\n", - " elif row['word'].lower() in FEMALE_TITLES:\n", - " return 'FEMALE_TITLE'\n", - " return row['metadata']\n", - "\n", - "\n", - "def update_title_tag_if_missing(row):\n", - " if row['word'].lower() in MALE_TITLES and row['tag']=='O':\n", - " return 'B-MALE_TITLE'\n", - " elif row['word'].lower() in FEMALE_TITLES and row['tag']=='O':\n", - " return 'B-FEMALE_TITLE'\n", - " else:\n", - " return row['tag']\n", - "\n", - "ner_dataset['metadata'] = ner_dataset.apply(get_title_as_metadata,axis=1)\n", - "ner_dataset['tag'] = ner_dataset.apply(update_title_tag_if_missing,axis=1)" - ] - }, - { - "cell_type": "code", - "execution_count": 39, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['sentence_idx']==18]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Remove 'the' from 'the NORP' if NORP is not in nationalities list." - ] - }, - { - "cell_type": "code", - "execution_count": 40, - "metadata": {}, - "outputs": [], - "source": [ - "def remove_tag_if_the_norp(row):\n", - " if row['prev-word'].lower() == 'the' and row['tag']=='B-NORP' and row['metadata'] is None:\n", - " return 'O'\n", - " elif row['prev-prev-word'].lower() == 'the' and row['prev-tag']=='I-NORP' and row['tag']=='B-NORP' and row['metadata'] is None:\n", - " return 'O'\n", - " return row['tag']\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_the_norp,axis=1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Remove sentences with adjacent different entities (e.g calling from New York Larry King)" - ] - }, - { - "cell_type": "code", - "execution_count": 41, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['entity'] = ner_dataset['tag'].str[2:]\n", - "ner_dataset['next-entity']=ner_dataset['next-tag'].str[2:]\n", - "adjacent_idc = (ner_dataset['tag'] != 'O') & (ner_dataset['next-tag'] != 'O') & (ner_dataset['entity'] != ner_dataset['next-entity'])\n", - "sentences_to_remove = ner_dataset[adjacent_idc]['sentence_idx'].values\n", - "sentences_to_remove\n", - "\n", - "ner_dataset=ner_dataset[~ner_dataset['sentence_idx'].isin(sentences_to_remove)]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Update tag for discovered metadata values (eg. nationalities)" - ] - }, - { - "cell_type": "code", - "execution_count": 42, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['tag'] = ner_dataset.apply(update_tag_based_on_metadata, axis=1)" - ] - }, - { - "cell_type": "code", - "execution_count": 43, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Create templates base on NER dataset" - ] - }, - { - "cell_type": "code", - "execution_count": 331, - "metadata": {}, - "outputs": [], - "source": [ - "import re\n", - "class SentenceGetter(object):\n", - " \n", - " def __init__(self, dataset):\n", - " self.n_sent = 1\n", - " self.dataset = dataset\n", - " self.empty = False\n", - " agg_func = lambda s: [(w, t) for w,t in zip(s[\"word\"].values.tolist(),\n", - " s[\"tag\"].values.tolist())]\n", - " self.grouped = self.dataset.groupby(\"sentence_idx\").apply(agg_func)\n", - " self.sentences = [s for s in self.grouped]\n", - " \n", - " def get_next(self):\n", - " try:\n", - " s = self.grouped[\"Sentence: {}\".format(self.n_sent)]\n", - " self.n_sent += 1\n", - " return s\n", - " except:\n", - " return None\n", - " \n", - " @staticmethod \n", - " def cleanse_template(template, ents):\n", - " # Remove whitespace before certain punctuation marks\n", - " template = re.sub(r'\\s([?,:.!](?:|$))+', r'\\1', template)\n", - " \n", - " # Remove whitespaces within double quotes\n", - " template = re.sub('\\\"\\s*([^\\\"]*?)\\s*\\\"', r'\"\\1\"', template) \n", - " \n", - " # Remove whitespaces within quotes\n", - " template = re.sub(\"\\'\\s*([^\\']*?)\\s*\\'\", r\"'\\1'\", template) \n", - " \n", - " # Remove whitespaces within parentheses\n", - " template = re.sub('\\(\\s*([^\\(]*?)\\s*\\)', r'(\\1)', template) \n", - " \n", - " for ent in ents:\n", - " #Turn PERSON PERSON into PERSON\n", - " duplicates = \"[{}] [{}]\".format(ent,ent)\n", - " template = template.replace(duplicates,\"[{}]\".format(ent))\n", - " \n", - " \n", - " # Replace additional weird templates:\n", - " to_replace = {\n", - " \"[LOCATION] says\" : \"[PERSON] says\",\n", - " \"[LOCATION] said\" : \"[PERSON] said\",\n", - " \"[ORGANIZATION] of [ORGANIZATION]\" : \"[ORGANIZATION]\",\n", - " \"the [COUNTRY]\" : \"[COUNTRY]\",\n", - " \" 's \":\"'s\",\n", - " \"] 's \":\"]'s \",\n", - " \"] 's,\":\"]'s,\",\n", - " \"] 's.\":\"]'s.\",\n", - " \" n't\" : \"n't\",\n", - " \"/?\":\"?\",\n", - " \"%u\":\"u\",\n", - " \"%m\":\"m\",\n", - " \"%e\":\"e\", \n", - " \"%h\":\"h\", \n", - " \"%a\":\"a\",\n", - " \" %\":\"%\",\n", - " \" ?\":\"?\",\n", - " \" /?\":\"?\",\n", - " \" ' .\":\"'.\",\n", - " \"[ \":\"(\",\n", - " \" ]\":\")\",\n", - " \"[PERSON] -- [PERSON]\":\"[PERSON]\",\n", - " \"[COUNTRY] -- [ORGANIZATION]\":\"[ORGANIZATION]\",\n", - " \"Jews\" : \"[NATIONALITY]\",\n", - " \"Chinese\" : \"[NATIONALITY]\",\n", - " \"Dutch\" : \"[NATIONALITY]\",\n", - " \"[LOCATION], [LOCATION]\":\"[LOCATION]\"\n", - " }\n", - " \n", - " for weird in to_replace.keys():\n", - " #if weird in template:\n", - " # print(\"Weird sentence\",template)\n", - " template = template.replace(weird,to_replace[weird])\n", - " \n", - " template = template.replace(\" -- \",\" - \")\n", - " \n", - " #Ignore templates that are incomplete\n", - " if \"/-\" in template:\n", - " template = \"\"\n", - " \n", - " if template.count('\"') == 1:\n", - " template = template.replace('\"','')\n", - "\n", - " return template\n", - " \n", - " @staticmethod \n", - " def get_template(grouped,entity_name_replace_dict):\n", - " template = \"\"\n", - " i=0\n", - " cur_index = 0\n", - " ents = []\n", - " for token in grouped:\n", - " # remove brackets as they interefere with the data generation process\n", - " token_text = token[0].replace(\"[\", \"(\").replace(\"]\",\")\")\n", - " token_text = token[0].replace(\"{\", \"(\").replace(\"}\",\")\")\n", - " token_tag = token[1]\n", - " token_entity = token_tag[2:] if len(token_tag)>1 else token_tag\n", - " \n", - " if token_entity == 'O':\n", - " template += \" \" + token_text\n", - " elif 'B-' in token_tag and token_entity not in TAGS_TO_IGNORE:\n", - " #print(\"found entity: {}\".format(token_entity))\n", - " ent = entity_name_replace_dict[token_entity]\n", - " ents.append(ent)\n", - " \n", - " template += \" [\" + ent + \"]\"\n", - " #print(\"template: \",template)\n", - " \n", - " template = SentenceGetter.cleanse_template(template, ents)\n", - " \n", - " return template.strip()\n", - " \n", - "getter = SentenceGetter(ner_dataset)" - ] - }, - { - "cell_type": "code", - "execution_count": 321, - "metadata": {}, - "outputs": [], - "source": [ - "ENTITIES_DICTIONARY = {\"PERSON\":\"PERSON\",\n", - " \"GPE\":\"COUNTRY\",\n", - " \"NORP\":\"LOCATION\",\n", - " \"LOC\":\"LOCATION\",\n", - " \"ORG\":\"ORGANIZATION\",\n", - " \"MALE_TITLE\":\"MALE_TITLE\",\n", - " \"FEMALE_TITLE\":\"FEMALE_TITLE\",\n", - " \"COUNTRY\":\"COUNTRY\",\n", - " \"NATIONALITY\":\"NATIONALITY\",\n", - " \"NATION_WOMAN\":\"NATION_WOMAN\",\n", - " \"NATION_MAN\":\"NATION_MAN\",\n", - " \"NATION_PLURAL\":\"NATION_PLURAL\"}\n", - " \n", - "\n", - "\n", - "sentences = getter.sentences\n", - "\n", - "sent_id = 445\n", - "\n", - "print(\"original:\",sentences[sent_id])\n", - "print(\"template:\", getter.get_template(sentences[sent_id],entity_name_replace_dict=ENTITIES_DICTIONARY))" - ] - }, - { - "cell_type": "code", - "execution_count": 322, - "metadata": {}, - "outputs": [], - "source": [ - "all_templates = [getter.get_template(sentence,entity_name_replace_dict=ENTITIES_DICTIONARY) for sentence in sentences]" - ] - }, - { - "cell_type": "code", - "execution_count": 323, - "metadata": {}, - "outputs": [], - "source": [ - "print(\"original length of templates: {}\".format(len(all_templates)))\n", - "all_templates = list(set(all_templates))\n", - "print(\"length after duplicates removal: {}\".format(len(all_templates)))" - ] - }, - { - "cell_type": "code", - "execution_count": 324, - "metadata": {}, - "outputs": [], - "source": [ - "# save to file\n", - "\n", - "with open(\"../raw_data/ontonotes_based_templates.txt\",\"w+\",encoding='utf-8') as f:\n", - " for template in all_templates:\n", - " f.write(\"%s\\n\" % template)\n", - " " - ] - }, - { - "cell_type": "code", - "execution_count": 330, - "metadata": {}, - "outputs": [], - "source": [ - "template = \"[NATIONALITY]'s[MALE_TITLE]'\"\n", - "\n", - "template = getter.cleanse_template(template,[])\n", - "#template = re.sub('\\(\\s*([^\\(]*?)\\s*\\)', r'(\\1)', template) \n", - "template" - ] - }, - { - "cell_type": "code", - "execution_count": 326, - "metadata": {}, - "outputs": [], - "source": [ - "if template.count(\"'\")==1:\n", - " print(True)\n", - " template = template.replace(\"'\",'')" - ] - }, - { - "cell_type": "code", - "execution_count": 327, - "metadata": {}, - "outputs": [], - "source": [ - "template" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [] - } - ], - "metadata": { - "kernelspec": { - "display_name": "Python 3", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.7.4" - }, - "pycharm": { - "stem_cell": { - "cell_type": "raw", - "source": [], - "metadata": { - "collapsed": false - } - } - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} \ No newline at end of file diff --git a/notebooks/data generation/from_datasets/Ontonotes exploratory data analysis.ipynb b/notebooks/data generation/from_datasets/Ontonotes exploratory data analysis.ipynb deleted file mode 100644 index 09d3999..0000000 --- a/notebooks/data generation/from_datasets/Ontonotes exploratory data analysis.ipynb +++ /dev/null @@ -1,436 +0,0 @@ -{ - "cells": [ - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Exploratory data analysis on the OntoNotes dataset, to gain insights towards the templating of the dataset" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "import pandas as pd\n", - "pd.options.display.max_rows = 4000\n", - "pd.set_option('display.max_colwidth', -1)" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": {}, - "outputs": [], - "source": [ - "conll = \"\" # Download CoNLL-2003\n", - "\n", - "df_list = []\n", - "sentence_id = 0\n", - "for sentence in conll:\n", - " \n", - " df = pd.DataFrame(sentence,columns = [\"word\",\"tag\"])\n", - " df[\"sentence_idx\"] = sentence_id\n", - " sentence_id+=1\n", - " df_list.append(df)\n", - "ner_dataset = pd.concat(df_list)\n", - "ner_dataset.head(10)" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "metadata": {}, - "outputs": [], - "source": [ - "TAGS_TO_IGNORE = ['CARDINAL','FAC','LAW','LANGUAGE','TIME','DATE','ORDINAL','EVENT','QUANTITY','WORK_OF_ART','MONEY','PRODUCT','PERCENT']\n", - "def remote_unwanted_tags(x):\n", - " if len(x)>1 and x[2:] in TAGS_TO_IGNORE:\n", - " return 'O'\n", - " else:\n", - " return x\n", - "\n", - "ner_dataset['tag'] = ner_dataset['tag'].apply(remote_unwanted_tags)\n", - "ner_dataset[ner_dataset['sentence_idx']==3]" - ] - }, - { - "cell_type": "code", - "execution_count": 28, - "metadata": {}, - "outputs": [], - "source": [ - "sentences = ner_dataset.groupby('sentence_idx')['word'].transform(lambda x: ' '.join(x)).unique().tolist()" - ] - }, - { - "cell_type": "code", - "execution_count": 34, - "metadata": {}, - "outputs": [], - "source": [ - "len(sentences)\n", - "#print(sentences[:5])\n", - "with open(\"raw_sentences.txt\",\"w\",encoding=\"utf8\") as f:\n", - " for item in sentences:\n", - " f.write(\"{}\\n\".format(item))" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Number of labels per tag" - ] - }, - { - "cell_type": "code", - "execution_count": 261, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset.groupby('tag')['tag'].count()" - ] - }, - { - "cell_type": "code", - "execution_count": 264, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['word'] = ner_dataset['word'].replace('-LRB-',')')\\\n", - ".replace('-RRB-',')')\\\n", - ".replace('``',\"\\\"\")\\\n", - ".replace(\"''\",'\"')\\\n", - ".replace('/.','.')" - ] - }, - { - "cell_type": "code", - "execution_count": 265, - "metadata": {}, - "outputs": [], - "source": [ - "from collections import Counter\n", - "Counter(ner_dataset['word']).most_common(30)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Add lead and lag words and tags to dataset_no_punct" - ] - }, - { - "cell_type": "code", - "execution_count": 267, - "metadata": {}, - "outputs": [], - "source": [ - "import string\n", - "punct = [c for c in string.punctuation]\n", - "punct.extend([\"--\",\"''\",\"/.\"])\n", - "print(punct)\n", - "dataset_no_punct = ner_dataset[~ner_dataset.word.str.strip().isin(punct)]\n", - "dataset_no_punct['prev-word'] = dataset_no_punct.word.shift(1)\n", - "dataset_no_punct['prev-prev-word'] = dataset_no_punct['word'].shift(2)\n", - "dataset_no_punct['next-word'] = dataset_no_punct['word'].shift(-1)\n", - "dataset_no_punct['prev-tag'] = dataset_no_punct['tag'].shift(1)\n", - "dataset_no_punct['next-tag'] = dataset_no_punct['tag'].shift(-1)\n", - "dataset_no_punct.head()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Add features for easier manipulation" - ] - }, - { - "cell_type": "code", - "execution_count": 268, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['prev-word'] = ner_dataset.word.shift(1)\n", - "ner_dataset['prev-prev-word'] = ner_dataset['word'].shift(2)\n", - "ner_dataset['next-word'] = ner_dataset['word'].shift(-1)\n", - "ner_dataset['next-next-word'] = ner_dataset['word'].shift(-2)\n", - "ner_dataset['prev-tag'] = ner_dataset['tag'].shift(1)\n", - "ner_dataset['next-tag'] = ner_dataset['tag'].shift(-1)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Gather statistics on the first person token" - ] - }, - { - "cell_type": "code", - "execution_count": 269, - "metadata": {}, - "outputs": [], - "source": [ - "bper = dataset_no_punct[dataset_no_punct['tag']=='B-PERSON']" - ] - }, - { - "cell_type": "code", - "execution_count": 270, - "metadata": {}, - "outputs": [], - "source": [ - "# histogram of B-PERSON tokens\n", - "from collections import Counter\n", - "Counter(bper['word']).most_common(20)" - ] - }, - { - "cell_type": "code", - "execution_count": 271, - "metadata": {}, - "outputs": [], - "source": [ - "prev_bper_token = bper['prev-word'].str.lower()\n", - "Counter(prev_bper_token).most_common(20)" - ] - }, - { - "cell_type": "code", - "execution_count": 272, - "metadata": {}, - "outputs": [], - "source": [ - "prev_prev_bper_token = bper['prev-prev-word']\n", - "two_prev_tokens = zip(prev_prev_bper_token.str.lower(), prev_bper_token.str.lower())\n", - "Counter(two_prev_tokens).most_common(20)" - ] - }, - { - "cell_type": "code", - "execution_count": 273, - "metadata": {}, - "outputs": [], - "source": [ - "# find \"the\" followed by B-PERSON\n", - "the_PERSON = ner_dataset[(ner_dataset['prev-word'].str.lower()==\"the\") & (ner_dataset['tag']=='B-PERSON')]\n", - "print(the_PERSON['prev-word']+\" \"+the_PERSON['word']+\" \"+the_PERSON['next-word']+\" \"+the_PERSON['next-next-word'].values)" - ] - }, - { - "cell_type": "code", - "execution_count": 296, - "metadata": {}, - "outputs": [], - "source": [ - "## add metadata for nationalities (to differentiate between America, Americans and US citizen)\n", - "nationalities = pd.read_csv(\"../raw_data/nationalities.csv\")\n", - "nationalities.head()\n", - "\n", - "ner_dataset['metadata'] = None\n", - "\n", - "def get_nationality_as_metadata(row):\n", - " if row['word'].lower() in nationalities['country'].values:\n", - " return 'COUNTRY'\n", - " elif row['word'].lower() in nationalities['nationality'].values:\n", - " return 'NATIONALITY'\n", - " elif row['word'].lower() in nationalities['man'].values:\n", - " return 'NATION_MAN'\n", - " elif row['word'].lower() in nationalities['woman'].values:\n", - " return 'NATION_WOMAN'\n", - " return row['metadata']\n", - "\n", - "row = pd.Series({'word':'Frenchwoman','metadata':None})\n", - "print(\"Example: Frenchwoman -> \",get_nationality_as_metadata(row))\n", - "\n", - "ner_dataset['metadata'] = ner_dataset.apply(get_nationality_as_metadata, axis=1)" - ] - }, - { - "cell_type": "code", - "execution_count": 297, - "metadata": {}, - "outputs": [], - "source": [ - "# removing PERSON tags from sentences with a 'the' preceding the person:\n", - "\n", - "def remove_tag_if_the_person(row):\n", - " if row['prev-word'].lower() == 'the' and row['tag']=='B-PERSON':\n", - " return 'O'\n", - " elif row['prev-prev-word'].lower() == 'the' and row['prev-tag']=='I-PERSON' and row['tag']=='B-PERSON':\n", - " return 'O'\n", - " return row['tag']\n", - "\n", - "def remove_tag_if_the_norp(row):\n", - " if row['prev-word'].lower() == 'the' and row['tag']=='B-NORP' and row['metadata'] is None:\n", - " return 'O'\n", - " elif row['prev-prev-word'].lower() == 'the' and row['prev-tag']=='I-NORP' and row['tag']=='B-NORP' and row['metadata'] is None:\n", - " return 'O'\n", - " return row['tag']\n", - "\n", - "ner_dataset['prev-word']=ner_dataset['prev-word'].astype('str')\n", - "ner_dataset['prev-prev-word']=ner_dataset['prev-prev-word'].astype('str')\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_the_person,axis=1)\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_the_norp,axis=1)" - ] - }, - { - "cell_type": "code", - "execution_count": 299, - "metadata": {}, - "outputs": [], - "source": [ - "# find \"the\" followed by B-NORP\n", - "the_NORP = ner_dataset[(ner_dataset['prev-word'].str.lower()==\"the\") & (ner_dataset['tag']=='B-NORP')]\n", - "print(the_NORP['prev-word']+\" \"+the_NORP['word']+\" \"+the_NORP['next-word']+\" \"+the_NORP['next-next-word'].values + \" (\" + the_NORP['metadata'] + \")\")" - ] - }, - { - "cell_type": "code", - "execution_count": 276, - "metadata": {}, - "outputs": [], - "source": [ - "def remove_tag_if_apostraphe_after_tag(row):\n", - " if row['prev-tag'] != 'O' and row['word']==\"'s\":\n", - " return 'O'\n", - " return row['tag']\n", - "ner_dataset['tag'] = ner_dataset.apply(remove_tag_if_apostraphe_after_tag,axis=1)" - ] - }, - { - "cell_type": "code", - "execution_count": 277, - "metadata": {}, - "outputs": [], - "source": [ - "sentences_with_president=ner_dataset[ner_dataset['word'].str.lower() == 'president']['sentence_idx']\n", - "ner_dataset[ner_dataset['sentence_idx']==sentences_with_president.iloc[0]]" - ] - }, - { - "cell_type": "code", - "execution_count": 279, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['tag']=='B-PERSON']" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "#### Adjacent tags" - ] - }, - { - "cell_type": "code", - "execution_count": 281, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset['entity'] = ner_dataset['tag'].str[2:]\n", - "ner_dataset['next-entity']=ner_dataset['next-tag'].str[2:]\n" - ] - }, - { - "cell_type": "code", - "execution_count": 286, - "metadata": {}, - "outputs": [], - "source": [ - "adjacent_idc = (ner_dataset['tag'] != 'O') & (ner_dataset['next-tag'] != 'O') & (ner_dataset['entity'] != ner_dataset['next-entity'])\n", - "print(\"sentences with duplicate different entities: \",str(len(ner_dataset[adjacent_idc])))\n", - "ner_dataset[adjacent_idc]['sentence_idx']\n" - ] - }, - { - "cell_type": "code", - "execution_count": 289, - "metadata": {}, - "outputs": [], - "source": [ - "ner_dataset[ner_dataset['sentence_idx']==8759]" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "NORP values" - ] - }, - { - "cell_type": "code", - "execution_count": 293, - "metadata": {}, - "outputs": [], - "source": [ - "norp_values = ner_dataset[ner_dataset['entity']=='NORP']['word']\n", - "Counter(norp_values).most_common(50)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### The country?" - ] - }, - { - "cell_type": "code", - "execution_count": 311, - "metadata": {}, - "outputs": [], - "source": [ - "the_X_idx = (ner_dataset['prev-word']=='the') & (ner_dataset['tag'] != 'O')\n", - "the_X_sentences = ner_dataset[the_X_idx]['sentence_idx']\n", - "the_X_sentences.values[0]\n", - "ner_dataset[ner_dataset['sentence_idx']==the_X_sentences.values[0]]" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [] - } - ], - "metadata": { - "kernelspec": { - "display_name": "Python 3", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.7.4" - }, - "pycharm": { - "stem_cell": { - "cell_type": "raw", - "source": [], - "metadata": { - "collapsed": false - } - } - } - }, - "nbformat": 4, - "nbformat_minor": 2 -} \ No newline at end of file diff --git a/notebooks/i2b2-2014-evaluation.ipynb b/notebooks/i2b2-2014-evaluation.ipynb deleted file mode 100644 index 504c16a..0000000 --- a/notebooks/i2b2-2014-evaluation.ipynb +++ /dev/null @@ -1,424 +0,0 @@ -{ - "cells": [ - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "import json\n", - "from collections import defaultdict, Counter\n", - "\n", - "import numpy as np\n", - "import matplotlib.pyplot as plt\n", - "from presidio_evaluator import InputSample\n", - "from presidio_evaluator.evaluation import ModelError, Evaluator\n", - "from presidio_evaluator.models import PresidioAnalyzerWrapper\n", - "\n", - "from presidio_analyzer import AnalyzerEngine" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "# Evaluate Presidio on the I2B2-2014 de-identification dataset\n", - "\n", - "#### Prerequisites:\n", - "1. Get access to the data\n", - "2. Copy the data to the `/data/i2b2/2014` folder on the top of the repo. You should have three folders:\n", - " - `testing-PHI-Gold-fixed`\n", - " - `training-PHI-Gold-Set1`\n", - " - `training-PHI-Gold-Set2`\n", - "3. Run the following cell for creating a list of InputSamples and save them to json:" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%% raw\n" - } - }, - "outputs": [], - "source": [ - "CREATE_DATASET=False #Change to true on the first run\n", - "\n", - "\n", - "if CREATE_DATASET:\n", - " # Data is assumed to be on the data folder (repo root) under i2b2/2014\n", - " # train 1\n", - " input_path1 = Path(\"../data/i2b2/2014/training-PHI-Gold-Set1\")\n", - " output_path1 = Path(\"../data/i2b2/2014/training-PHI-Gold-Set1.json\")\n", - " I2B22014Formatter.dataset_to_json(input_path1, output_path1)\n", - "\n", - " # train 2\n", - " input_path2 = Path(\"../data/i2b2/2014/training-PHI-Gold-Set2\")\n", - " output_path2 = Path(\"../data/i2b2/2014/training-PHI-Gold-Set2.json\")\n", - " I2B22014Formatter.dataset_to_json(input_path2, output_path2)\n", - "\n", - " # test\n", - " input_path3 = Path(\"../data/i2b2/2014/testing-PHI-Gold-fixed\")\n", - " output_path3 = Path(\"../data/i2b2/2014/testing-PHI-Gold-fixed.json\")\n", - " I2B22014Formatter.dataset_to_json(input_path3, output_path3)\n" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "def read_json_dataset(filepath=None, length=None):\n", - "\n", - " with open(filepath, \"r\", encoding=\"utf-8\") as f:\n", - " dataset = json.load(f)\n", - "\n", - " if length:\n", - " dataset = dataset[:length]\n", - "\n", - " input_samples = [InputSample.from_json(row) for row in dataset]\n", - " input_samples = [sample for sample in input_samples if len(sample.full_text) < 5120]\n", - "\n", - " return input_samples" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "dataset = read_json_dataset(\"../data/i2b2/2014/training-PHI-Gold-Set1.json\")" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "pycharm": { - "name": "#%% raw\n" - } - }, - "source": [ - "Entity types in this dataset and their frequencies:" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "flatten = lambda l: [item for sublist in l for item in sublist]\n", - "count_per_entity = Counter([span.entity_type for span in flatten([input_sample.spans for input_sample in dataset])])\n", - "count_per_entity" - ] - }, - { - "cell_type": "markdown", - "source": [ - "Dataset statistics" - ], - "metadata": { - "collapsed": false, - "pycharm": { - "name": "#%% md\n" - } - } - }, - { - "cell_type": "code", - "execution_count": null, - "outputs": [], - "source": [ - "print(f\"Number of samples: {len(dataset)}\")\n", - "print(f\"Total number of tokens: {sum([len(sample.tokens) for sample in dataset])}\")\n", - "print(f\"Average number of tokens: {np.mean([len(sample.tokens) for sample in dataset])}\")\n", - "print(f\"Number of spans: {sum(len(sample.spans) for sample in dataset)}\")\n", - "print(\"Sentence length\")\n", - "\n", - "fig, axs = plt.subplots(2,figsize=(20,10))\n", - "\n", - "lengths = [len(sample.full_text) for sample in dataset]\n", - "axs[0].hist(lengths,color=\"grey\")\n", - "axs[0].set_title(\"Number of characters per sample\")\n", - "axs[0].set(xlabel=\"Number of characters\",ylabel=\"Number of samples\")\n", - "\n", - "tokens = [len(sample.tokens) for sample in dataset]\n", - "axs[1].hist(tokens,)\n", - "axs[1].set_title(\"Number of tokens per sample\")\n", - "axs[1].set(xlabel=\"Number of characters\",ylabel=\"Number of samples\")" - ], - "metadata": { - "collapsed": false, - "pycharm": { - "name": "#%%\n" - } - } - }, - { - "cell_type": "markdown", - "metadata": { - "pycharm": { - "name": "#%% raw\n" - } - }, - "source": [ - "Translate I2b2 2014 entity types to Presidio's (If available)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "i2b2_presidio_dict = {\n", - " \"PATIENT\": \"PERSON\",\n", - " \"DOCTOR\": \"PERSON\",\n", - " \"AGE\":\"AGE\", # Not supported in Presidio\n", - " \"BIOID\": \"BIOID\", # Not supported in Presidio\n", - " \"COUNTRY\": \"LOCATION\",\n", - " \"CITY\":\"LOCATION\",\n", - " \"DATE\": \"DATE_TIME\",\n", - " \"DEVICE\": \"DEVICE\", # Not supported in Presidio\n", - " \"EMAIL\": \"EMAIL_ADDRESS\",\n", - " \"FAX\": \"US_PHONE_NUMBER\",\n", - " \"HEALTHPLAN\": \"HEALTHPLAN\", # Not supported in Presidio\n", - " \"HOSPITAL\": \"ORGANIZATION\",\n", - " # \"IDNUM\": \"IDNUM\", # Not supported in Presidio\n", - " \"LOCATION-OTHER\": \"LOCATION\",\n", - " # \"MEDICALRECORD\": \"MEDICAL_RECORD\", # Not supported in Presidio\n", - " \"ORGANIZATION\": \"ORGANIZATION\",\n", - " \"PHONE\": \"PHONE_NUMBER\",\n", - " \"PROFESSION\": \"PROFESSION\", # Not supported in Presidio\n", - " \"STATE\": \"LOCATION\",\n", - " \"STREET\": \"LOCATION\",\n", - " \"URL\": \"DOMAIN_NAME\",\n", - " # \"USERNAME\": \"USERNAME\", # Not supported in Presidio\n", - " \"ZIP\": \"ZIP\", # Not supported in Presidio\n", - " \"O\": \"O\",\n", - "}" - ] - }, - { - "cell_type": "markdown", - "metadata": { - "pycharm": { - "name": "#%% md\n" - } - }, - "source": [ - "Examine different entity values" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "values_per_entity = defaultdict(set)\n", - "for sample in dataset:\n", - " for span in sample.spans:\n", - " values_per_entity[span.entity_type].add(span.entity_value)\n", - "\n", - "values_per_entity['PROFESSION']" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "new_dataset = Evaluator.align_entity_types(input_samples=dataset, entities_mapping=i2b2_presidio_dict, \n", - " allow_missing_mappings=True)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Re-calculate frequency per entity_type" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "count_per_entity_new = Counter([span.entity_type for span in flatten([input_sample.spans for input_sample in new_dataset])])\n", - "count_per_entity_new" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "# Set up analyzer\n", - "analyzer = AnalyzerEngine()\n", - "\n", - "\n", - "# Run evaluation\n", - "presidio = PresidioAnalyzerWrapper(analyzer_engine=analyzer,\n", - " entities_to_keep=list(count_per_entity_new.keys()))\n", - "evaluator = Evaluator(model=presidio)\n", - "evaluated = evaluator.evaluate_all(new_dataset)\n", - "\n" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": { - "pycharm": { - "name": "#%%\n" - } - }, - "outputs": [], - "source": [ - "evaluation_result = evaluator.calculate_score(evaluated)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "evaluation_result.print()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Analyze wrong predictions" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "errors = evaluation_result.model_errors" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "False positives analysis" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ModelError.most_common_fp_tokens(errors,n=5)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ModelError.get_fps_dataframe(errors,entity='DATE_TIME')" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "False negatives analysis" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ModelError.most_common_fn_tokens(errors,n=5)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "ModelError.get_fns_dataframe(errors,entity='DATE_TIME')" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [] - } - ], - "metadata": { - "kernelspec": { - "display_name": "presidio-research", - "language": "python", - "name": "presidio-research" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.8.8" - } - }, - "nbformat": 4, - "nbformat_minor": 1 -} \ No newline at end of file diff --git a/notebooks/models/Create datasets for Spacy training.ipynb b/notebooks/models/Create datasets for Spacy training.ipynb index 58a8b44..4489c90 100644 --- a/notebooks/models/Create datasets for Spacy training.ipynb +++ b/notebooks/models/Create datasets for Spacy training.ipynb @@ -16,30 +16,24 @@ }, "source": [ "This notebook takes train and test datasets (of type `List[InputSample]`)\n", - "and transforms them into two structures consumed by Spacy:\n", - "1. Spacy JSON (see https://spacy.io/api/annotation#json-input)\n", - "2. Spacy Pickle files (of structure `[(full_text,\"entities\":[(start, end, type),(...))]`. \n", - "See more details here: https://spacy.io/api/annotation#json-input)\n", + "and transforms them into a structures consumed by Spacy. \n", "\n", - ">> Note that this notebook uses the old spaCy 2.0 structure. In order to train spaCy 3 models,\n", - "> the spacy `convert` CLI call should be used:\n", - "\n", - ">>`python -m spacy convert ./data.json ./output.spacy`" + "[See more on creating training data for spaCy here](https://spacy.io/usage/training#training-data)." ] }, { "cell_type": "code", - "execution_count": null, + "execution_count": 1, "metadata": {}, "outputs": [], "source": [ - "from presidio_evaluator.data_generator import read_synth_dataset\n", + "from presidio_evaluator import InputSample\n", "%reload_ext autoreload" ] }, { "cell_type": "code", - "execution_count": null, + "execution_count": 2, "metadata": { "pycharm": { "name": "#%%\n" @@ -47,22 +41,59 @@ }, "outputs": [], "source": [ - "DATA_DATE = 'November 12 2019'" + "DATA_DATE = 'Dec-19-2021'" ] }, { "cell_type": "code", - "execution_count": null, + "execution_count": 3, "metadata": { "pycharm": { "name": "#%%\n" } }, - "outputs": [], + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "\r", + "tokenizing input: 0%| | 0/2122 [00:000]\n", + "train_tagged = [sample for sample in train_samples if len(sample.spans) > 0]\n", "print(\"Kept {} samples after removal of non-tagged samples\".format(len(train_tagged)))" ] }, @@ -100,13 +139,45 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 5, "metadata": { "pycharm": { "name": "#%%\n" } }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Entities found in training set:\n" + ] + }, + { + "data": { + "text/plain": [ + "{'ADDRESS',\n", + " 'CREDIT_CARD',\n", + " 'DATE_TIME',\n", + " 'DOMAIN_NAME',\n", + " 'EMAIL_ADDRESS',\n", + " 'IBAN_CODE',\n", + " 'IP_ADDRESS',\n", + " 'LOCATION',\n", + " 'O',\n", + " 'ORGANIZATION',\n", + " 'PERSON',\n", + " 'PHONE_NUMBER',\n", + " 'PREFIX',\n", + " 'TITLE',\n", + " 'US_SSN'}" + ] + }, + "execution_count": 5, + "metadata": {}, + "output_type": "execute_result" + } + ], "source": [ "print(\"Entities found in training set:\")\n", "entities = []\n", @@ -123,7 +194,7 @@ } }, "source": [ - "Create Spacy dataset (option 2)" + "Create Spacy dataset" ] }, { @@ -134,12 +205,18 @@ "name": "#%%\n" } }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Skipping illegal span None, text=ΜΟΝΗ ΑΓΙΩΝ ΑΝΑΡΓΥΡΩΝ\n", + "Skipping illegal span None, text=U.N\n" + ] + } + ], "source": [ - "from presidio_evaluator import InputSample\n", - "import pickle\n", - "\n", - "spacy_train = InputSample.create_spacy_dataset(train_tagged)\n" + "spacy_train = InputSample.create_spacy_dataset(dataset=train_tagged, output_path = \"train.spacy\")\n" ] }, { @@ -156,23 +233,6 @@ "set(entities_spacy_flat)" ] }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Create Spacy dataset (option 1: JSON)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "from presidio_evaluator import InputSample\n", - "spacy_train_json = InputSample.create_spacy_json(train_tagged)" - ] - }, { "cell_type": "markdown", "metadata": {}, @@ -189,71 +249,11 @@ "[sample[0] for sample in spacy_train[:100]]" ] }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "spacy_train_json[0]['paragraphs'][0]['sentences']" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Dump training set to pickle and json respectively" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "import pickle\n", - "import json\n", - "with open(\"../../data/train.pickle\", 'wb') as handle:\n", - " pickle.dump(spacy_train,handle, protocol=pickle.HIGHEST_PROTOCOL)\n", - "\n", - "with open(\"../../data/train.json\",\"w\") as f:\n", - " json.dump(spacy_train_json,f)\n", - " " - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Create JSON and pickle files for test dataset" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "test_samples = read_synth_dataset(data_path.format(\"test\",DATA_DATE))\n", - "print(\"Read {} samples\".format(len(test_samples)))" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "spacy_test = InputSample.create_spacy_dataset(test_samples)\n", - "spacy_test_json = InputSample.create_spacy_json(test_samples)\n", - "print(spacy_test[14])" - ] - }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Dump test set to pickle and json respectively" + "Creating dataset files for test and validation" ] }, { @@ -262,13 +262,10 @@ "metadata": {}, "outputs": [], "source": [ - "import pickle\n", - "with open(\"../../data/test.pickle\", 'wb') as handle:\n", - " pickle.dump(spacy_test,handle, protocol=pickle.HIGHEST_PROTOCOL)\n", - " \n", - "with open(\"../../data/test.json\",\"w\") as f:\n", - " json.dump(spacy_test_json,f)\n", - " " + "for fold in (\"test\",\"validation\"):\n", + " dataset = InputSample.read_dataset_json(data_path.format(fold,DATA_DATE))\n", + " print(f\"Read {len(dataset)} samples for {fold}\")\n", + " InputSample.create_spacy_dataset(dataset=dataset, output_path = f\"{fold}.spacy\")" ] }, { @@ -281,9 +278,9 @@ ], "metadata": { "kernelspec": { - "display_name": "PyCharm (presidio-research)", + "display_name": "presidio", "language": "python", - "name": "pycharm-c8930cf3" + "name": "presidio" }, "language_info": { "codemirror_mode": { @@ -295,9 +292,9 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.8" + "version": "3.8.12" } }, "nbformat": 4, "nbformat_minor": 2 -} +} \ No newline at end of file diff --git a/notebooks/models/Evaluate CRF models.ipynb b/notebooks/models/Evaluate CRF models.ipynb index 84fe922..dc76d5a 100644 --- a/notebooks/models/Evaluate CRF models.ipynb +++ b/notebooks/models/Evaluate CRF models.ipynb @@ -4,9 +4,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Evaluate CRF models for person names, orgs and locations using the Presidio Evaluator framework\n", - "\n", - "Data = `generated_test_November 12 2019`" + "Evaluate CRF models for person names, orgs and locations using the Presidio Evaluator framework" ] }, { @@ -19,17 +17,14 @@ }, "outputs": [], "source": [ - "from tqdm import tqdm_notebook as tqdm\n", - "import logging\n", "from presidio_evaluator import InputSample\n", - "from presidio_evaluator.data_generator import read_synth_dataset\n", "from presidio_evaluator.evaluation import Evaluator, ModelError\n", "import spacy\n", "import pandas as pd\n", "import pickle\n", "\n", "pd.set_option('display.width', 10000)\n", - "pd.set_option('display.max_colwidth', -1)\n", + "pd.set_option('display.max_colwidth', None)\n", "\n", "\n", "%reload_ext autoreload\n", @@ -53,7 +48,7 @@ }, "outputs": [], "source": [ - "synth_samples = read_synth_dataset(\"../../data/synth_dataset.txt\")\n", + "synth_samples = InputSample.read_dataset_json(\"../../data/synth_dataset.json\")\n", "print(len(synth_samples))\n", "\n", "\n", @@ -134,7 +129,7 @@ }, "outputs": [], "source": [ - "crf_vanilla = \"../../model-outputs/crf.pickle\"\n", + "crf_vanilla = \"../../models/crf.pickle\"\n", " \n", "models = [crf_vanilla]" ] @@ -198,7 +193,7 @@ " tokenizer = spacy.blank('en')\n", " tokens = tokenizer(sent)\n", " tags = ['O' for token in tokens] # Placeholder: Not used but required. \n", - " metadata = {'Template#':1,'Gender':'1','Country':'2'} #Placeholder: Not used but required\n", + " metadata = {'template_id':1,'Gender':'1','Country':'2'} #Placeholder: Not used but required\n", " input_sample = InputSample(full_text=sent,masked=\"\",spans=None,tokens=tokens,tags=tags,metadata=metadata,create_tags_from_span=False,)\n", "\n", " return CRFModel.crf_predict(input_sample, model)" @@ -328,9 +323,9 @@ ], "metadata": { "kernelspec": { - "display_name": "PyCharm (presidio-research)", + "display_name": "presidio", "language": "python", - "name": "pycharm-c8930cf3" + "name": "presidio" }, "language_info": { "codemirror_mode": { @@ -342,18 +337,9 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.8" - }, - "pycharm": { - "stem_cell": { - "cell_type": "raw", - "metadata": { - "collapsed": false - }, - "source": [] - } + "version": "3.8.12" } }, "nbformat": 4, "nbformat_minor": 2 -} +} \ No newline at end of file diff --git a/notebooks/models/Evaluate flair models.ipynb b/notebooks/models/Evaluate flair models.ipynb index de66e9e..0c850c8 100644 --- a/notebooks/models/Evaluate flair models.ipynb +++ b/notebooks/models/Evaluate flair models.ipynb @@ -4,9 +4,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Evaluate Flair models for person names, orgs and locations using the Presidio Evaluator framework\n", - "\n", - "Data = `generated_test_November 12 2019`" + "Evaluate Flair models for person names, orgs and locations using the Presidio Evaluator framework" ] }, { @@ -19,8 +17,8 @@ }, "outputs": [], "source": [ - "from presidio_evaluator.data_generator import read_synth_dataset\n", - "from presidio_evaluator.evaluation import ModelError, Evaluator\n", + "from presidio_evaluator.evaluation import Evaluator, ModelError\n", + "from presidio_evaluator import InputSample\n", "%reload_ext autoreload\n", "%autoreload 2" ] @@ -42,8 +40,8 @@ }, "outputs": [], "source": [ - "synth_samples = read_synth_dataset(\"../../data/synth_dataset.txt\")\n", - "print(len(synth_samples))\n" + "synth_samples = InputSample.read_dataset_json(\"../../data/synth_dataset.json\")\n", + "print(len(synth_samples))" ] }, { @@ -71,17 +69,19 @@ " \"PHONE_NUMBER\": \"O\",\n", " \"BIRTHDAY\": \"O\",\n", " \"DATE_TIME\": \"O\",\n", - " \"DOMAIN\": \"O\",\n", + " \"DOMAIN_NAME\": \"O\",\n", " \"CITY\": \"LOC\",\n", " \"ADDRESS\": \"LOC\",\n", " \"NATIONALITY\": \"LOC\",\n", " \"LOCATION\": \"LOC\",\n", - " \"IBAN\": \"O\",\n", + " \"IBAN_CODE\": \"O\",\n", + " \"US_DRIVER_LICENSE\": \"O\",\n", " \"URL\": \"O\",\n", " \"US_SSN\": \"O\",\n", " \"IP_ADDRESS\": \"O\",\n", " \"ORGANIZATION\": \"ORG\",\n", " \"TITLE\" : \"O\", # skipping evaluation of titles\n", + " \"PREFIX\" : \"O\",\n", " \"O\": \"O\",\n", "}\n", "\n", @@ -118,13 +118,6 @@ "entity_counter" ] }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [] - }, { "cell_type": "code", "execution_count": null, @@ -294,13 +287,20 @@ "source": [ "fns_df[['full_text','token','annotation','prediction']]" ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] } ], "metadata": { "kernelspec": { - "display_name": "presidio-research", + "display_name": "presidio", "language": "python", - "name": "presidio-research" + "name": "presidio" }, "language_info": { "codemirror_mode": { @@ -312,7 +312,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.8" + "version": "3.8.12" }, "pycharm": { "stem_cell": { @@ -326,4 +326,4 @@ }, "nbformat": 4, "nbformat_minor": 2 -} +} \ No newline at end of file diff --git a/notebooks/models/Evaluate spacy models.ipynb b/notebooks/models/Evaluate spacy models.ipynb index 6517938..bf9a910 100644 --- a/notebooks/models/Evaluate spacy models.ipynb +++ b/notebooks/models/Evaluate spacy models.ipynb @@ -4,9 +4,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Evaluate Spacy models for person names, orgs and locations using the Presidio Evaluator framework\n", - "\n", - "Data = `generated_test_November 12 2019`" + "Evaluate Spacy models for person names, orgs and locations using the Presidio Evaluator framework" ] }, { @@ -22,7 +20,7 @@ "import spacy\n", "\n", "from presidio_evaluator.evaluation import Evaluator, ModelError\n", - "from presidio_evaluator.data_generator import read_synth_dataset\n", + "from presidio_evaluator import InputSample\n", "%reload_ext autoreload\n", "%autoreload 2\n", "\n" @@ -50,7 +48,7 @@ }, "outputs": [], "source": [ - "synth_samples = read_synth_dataset(\"../../data/synth_dataset.txt\")\n", + "synth_samples = InputSample.read_dataset_json(\"../../data/synth_dataset.json\")\n", "print(len(synth_samples))\n", "DATASET = synth_samples" ] @@ -156,7 +154,7 @@ " print(\"-----------------------------------\")\n", " print(\"Evaluating model {}\".format(model))\n", " nlp = spacy.load(model)\n", - " spacy_model = SpacyModel(model=nlp,entities_to_keep=['PERSON','GPE','ORG'])\n", + " spacy_model = SpacyModel(model=nlp,entities_to_keep=['PERSON', 'GPE', 'ORG'])\n", " evaluator = Evaluator(model=spacy_model)\n", " evaluation_results = evaluator.evaluate_all(DATASET)\n", " scores = evaluator.calculate_score(evaluation_results)\n", @@ -186,8 +184,8 @@ }, "outputs": [], "source": [ - "#evaluate custom sentences\n", - "nlp = spacy.load(spacy_ft_100)\n" + "#evaluate custom sentences (if exists)\n", + "#nlp = spacy.load(spacy_ft_100)\n" ] }, { @@ -329,9 +327,9 @@ ], "metadata": { "kernelspec": { - "display_name": "PyCharm (presidio-research)", + "display_name": "presidio", "language": "python", - "name": "pycharm-c8930cf3" + "name": "presidio" }, "language_info": { "codemirror_mode": { @@ -343,9 +341,9 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.8" + "version": "3.8.12" } }, "nbformat": 4, "nbformat_minor": 2 -} +} \ No newline at end of file diff --git a/notebooks/models/CRF.ipynb b/notebooks/models/Train CRF.ipynb similarity index 76% rename from notebooks/models/CRF.ipynb rename to notebooks/models/Train CRF.ipynb index 932bb57..293d2bf 100644 --- a/notebooks/models/CRF.ipynb +++ b/notebooks/models/Train CRF.ipynb @@ -23,8 +23,7 @@ "from sklearn_crfsuite import metrics\n", "\n", "from presidio_evaluator import InputSample\n", - "from presidio_evaluator.models.crf_model import CRFModel\n", - "from presidio_evaluator.data_generator import read_synth_dataset" + "from presidio_evaluator.models.crf_model import CRFModel" ] }, { @@ -33,7 +32,7 @@ "metadata": {}, "outputs": [], "source": [ - "DATA_DATE = \"November 12 2019\"" + "DATA_DATE = \"Dec-22-2021\"" ] }, { @@ -53,8 +52,8 @@ }, "outputs": [], "source": [ - "train_samples = read_synth_dataset(\"../../data/generated_train_{}.json\".format(DATA_DATE))\n", - "test_samples = read_synth_dataset(\"../../data/generated_test_{}.json\".format(DATA_DATE))" + "train_samples = InputSample.read_dataset_json(\"../../data/train_{}.json\".format(DATA_DATE))\n", + "test_samples = InputSample.read_dataset_json(\"../../data/test_{}.json\".format(DATA_DATE))" ] }, { @@ -147,6 +146,10 @@ "outputs": [], "source": [ "import pickle\n", + "import os\n", + "\n", + "os.makedirs(\"../../models/\", exist_ok=True)\n", + "\n", "with open(\"../../models/crf.pickle\",'wb') as f:\n", " pickle.dump(crf, f,protocol=pickle.HIGHEST_PROTOCOL)\n", " " @@ -225,47 +228,6 @@ "))" ] }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Model explainability" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "def print_transitions(trans_features):\n", - " for (label_from, label_to), weight in trans_features:\n", - " print(\"%-6s -> %-7s %0.6f\" % (label_from, label_to, weight))\n", - "\n", - "print(\"Top likely transitions:\")\n", - "print_transitions(Counter(crf.transition_features_).most_common(20))\n", - "\n", - "print(\"\\nTop unlikely transitions:\")\n", - "print_transitions(Counter(crf.transition_features_).most_common()[-20:])" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "def print_state_features(state_features):\n", - " for (attr, label), weight in state_features:\n", - " print(\"%0.6f %-8s %s\" % (weight, label, attr))\n", - "\n", - "print(\"Top positive:\")\n", - "print_state_features(Counter(crf.state_features_).most_common(30))\n", - "\n", - "print(\"\\nTop negative:\")\n", - "print_state_features(Counter(crf.state_features_).most_common()[-30:])" - ] - }, { "cell_type": "code", "execution_count": null, @@ -276,9 +238,9 @@ ], "metadata": { "kernelspec": { - "display_name": "PyCharm (presidio-research)", + "display_name": "presidio", "language": "python", - "name": "pycharm-c8930cf3" + "name": "presidio" }, "language_info": { "codemirror_mode": { @@ -290,9 +252,9 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.8" + "version": "3.8.12" } }, "nbformat": 4, "nbformat_minor": 1 -} +} \ No newline at end of file diff --git a/presidio_evaluator/data_generator/README.md b/presidio_evaluator/data_generator/README.md index 4b60cff..402dfdd 100644 --- a/presidio_evaluator/data_generator/README.md +++ b/presidio_evaluator/data_generator/README.md @@ -1,38 +1,78 @@ -# PII dataset generator -This data generator takes a text file with templates (e.g. `my name is [PERSON]`) -and creates a list of InputSamples which contain fake PII entities -instead of placeholders. -It also creates Spans (start and end of each entity), tokens (`spaCy` tokenizer) -and tags in various schemas (BIO/IOB, IO, BILOU) -In addition it provides some off-the-shelf features on each token, -like `pos`, `dep` and `is_in_vocabulary` - -The main class is `FakeDataGenerator` however the `main` module has two functions -for creating and reading a fake dataset. -During the generation process, the tool either takes fake PII from a provided CSV with -a known format, and/or from extension functions which can be found -in the extensions.py file. +# Presidio Data Generator + +This data generator takes a text file with templates (e.g. `my name is {{person}}`) +and creates a list of InputSamples which contain fake PII entities +instead of placeholders. It further creates spans (start and end of each entity) +for model training and evaluation. + +## Scenarios + +There are two main scenarios for using the Presidio Data Generator: + +1. Create a fake dataset for evaluation or training purposes, given a list of predefined templates (see [this file](raw_data/templates.txt) for example) +2. Augment an existing labeled dataset with additional fake values. + +In both scenarios the process is similar. In scenario 2, the existing dataset is first translated into templates, and then scenario 1 is applied. + +## Process + +This generator heavily relies on the [Faker package](https://www.github.com/joke2k/faker) with a few differences: + +1. `PresidioDataGenerator` returns not only fake text, but all the spans in which fake entities appear in the text + +2. Faker samples each value independently. In many cases we would want to keep the semantic dependency between two values. For example, for the template `My name is {{name}} and my email is {{email}}`, we would prefer a result which has the name within the email address, such as `My name is Mike and my email is mike1243@gmail.com`. For this functionality, a new `RecordGenerator` (based on Faker's `Generator` class) is implemented. It accepts a dictionary / pandas DataFrame, and favors returning objects from the same record (if possible). + +## Example + +For a full example, see the [Generation Data Notebook](../../notebooks/1_Generate_data.ipynb). + +Simple example: + +```python +from presidio_evaluator.data_generator import PresidioDataGenerator + +sentence_templates = [ + "My name is {{name}}", + "Please send it to {{address}}", + "I just moved to {{city}} from {{country}}" +] + + +data_generator = PresidioDataGenerator() +fake_records = data_generator.generate_fake_data( + templates=sentence_templates, n_samples=10 +) + +fake_records = list(fake_records) + +# Print the spans of the first sample +print(fake_records[0].fake) +print(fake_records[0].spans) + + + +``` The process in high level is the following: -1. Translate a NER dataset (e.g. CONLL or OntoNotes) into a list of + +1. Translate a NER dataset (e.g. CONLL or OntoNotes) into a list of templates: `My name is John` -> `My name is [PERSON]` -2. (Optional) adapt the FakeDataGenerator to support new extensions +2. (Optional) adapt the FakeDataGenerator to support new extensions which could generate fake PII entities -3. Generate X samples using the templates list + a fake PII dataset + +3. Generate X samples using the templates list + a fake PII dataset + extensions that add additional PII entities -4. Split the generated dataset to train/test/validation while making sure +4. Split the generated dataset to train/test/validation while making sure that samples from the same template would only appear in one set 5. Adapt datasets for the various models (Spacy, Flair, CRF, sklearn) 6. Train models 7. Evaluate using the evaluation notebooks and using the Presidio Evaluator framework - - Notes: + - For steps 5, 6, 7 see the main [README](../../README.md). -- For a simple data generation pipeline, +- For a simple data generation pipeline, [see this notebook](../../notebooks/data%20generation/Generate%20data.ipynb). -- For information on transforming a NER dataset into a templates, +- For information on transforming a NER dataset into a templates, see the notebooks in the [helper notebooks](../../notebooks/data%20generation) folder. Example run: @@ -56,10 +96,9 @@ examples = generate(fake_pii_csv=fake_pii_csv, span_to_tag=True) ``` - *Copyright notice:* -Fake Name Generator identities by the Fake Name Generator are licensed under a -Creative Commons Attribution-Share Alike 3.0 United States License. -Fake Name Generator and the Fake Name Generator logo -are trademarks of Corban Works, LLC. \ No newline at end of file +Fake Name Generator identities by the Fake Name Generator are licensed under a +Creative Commons Attribution-Share Alike 3.0 United States License. +Fake Name Generator and the Fake Name Generator logo +are trademarks of Corban Works, LLC. diff --git a/presidio_evaluator/data_generator/__init__.py b/presidio_evaluator/data_generator/__init__.py index 33898da..3de1ada 100644 --- a/presidio_evaluator/data_generator/__init__.py +++ b/presidio_evaluator/data_generator/__init__.py @@ -1,14 +1,10 @@ -from .nationality_generator import NationalityGenerator -from .us_driver_license_generator import UsDriverLicenseGenerator -from .org_name_generator import OrgNameGenerator -from .generator import FakeDataGenerator -from .main import generate, read_synth_dataset - -__all__ = [ - "FakeDataGenerator", - "generate", - "read_synth_dataset", - "NationalityGenerator", - "OrgNameGenerator", - "UsDriverLicenseGenerator", -] +from .presidio_data_generator import PresidioDataGenerator +from .presidio_pseudonymize import PresidioPseudonymization + + +def read_synth_dataset(): + raise DeprecationWarning("read_synth_dataset is deprecated. " + "Please use InputSample.read_dataset_json") + + +__all__ = ["PresidioDataGenerator", "PresidioPseudonymization", "read_synth_dataset"] diff --git a/presidio_evaluator/data_generator/extensions.py b/presidio_evaluator/data_generator/extensions.py deleted file mode 100644 index f6904fd..0000000 --- a/presidio_evaluator/data_generator/extensions.py +++ /dev/null @@ -1,165 +0,0 @@ -import random - -import pandas as pd -from faker import Faker -from haikunator import Haikunator - -fake = Faker() -haikunator = Haikunator() -IP_V4_RATIO = 0.8 - - -def generate_url(domain: pd.Series): - def generate_url_postfix(): - length = random.randint(4, 8) - delim = "/" if random.random() > 0.5 else "" - postfix = haikunator.haikunate( - delimiter=delim, - token_chars="abcdefghijklmnopqrstuvwxyz0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ", - token_length=length, - ) - return postfix - - def generate_url_prefix(): - rand = random.random() - - if rand < 0.3: - return "http://" - elif rand < 0.6: - return "http://www." - else: - return "" - - def concat_url(prefix, domain, postfix): - return "{}{}/{}".format(prefix, domain, postfix) - - return domain.apply( - lambda x: concat_url(generate_url_prefix(), x.lower(), generate_url_postfix()) - ) - # - # urls = [] - # for index, value in domain.items(): - # url = "{}{}/{}".format(generate_url_prefix(), value.lower(), generate_url_postfix()) - # urls.append(url) - # - # return urls - - -def generate_SSNs(length): - return [fake.ssn() for _ in range(length)] - - -def generate_iban(country: pd.Series): - def generate_one_iban(cntry): - try: - from schwifty.iban import _get_iban_spec, code_length, IBAN - import math - - spec = _get_iban_spec(cntry) - bank_code_length = code_length(spec, "bank_code") - branch_code_length = code_length(spec, "branch_code") - bank_and_branch_code_length = bank_code_length + branch_code_length - account_code_length = code_length(spec, "account_code") - - bank_code = random.randint(1, math.pow(10, bank_and_branch_code_length) - 1) - account_code = random.randint(1, math.pow(10, account_code_length) - 1) - iban = IBAN.generate(cntry, str(bank_code), str(account_code)) - return iban.formatted - except ValueError as err: - ## Failed to generate IBAN - return "IL270126100000000544211" - - return country.apply(generate_one_iban) - - -def generate_company_names(length, org_name_generator): - return [org_name_generator.get_organization() for _ in range(length)] - - -def generate_ip_addresses(length): - def generate_one(): - v = 4 if random.random() > IP_V4_RATIO else 6 - return fake.ipv4() if v == 4 else fake.ipv6() - - return [generate_one() for _ in range(length)] - - -def generate_title(gender=None): - MALE_TITLES = ["Mr.", "Dr.", "Professor.", "Eng.", "Prof.", "Doctor."] - FEMALE_TITLES = [ - "Mrs.", - "Ms.", - "Miss", - "Dr.", - "Professor.", - "Eng.", - "Prof.", - "Doctor", - ] - - if gender.lower() == "male": - return random.choices(MALE_TITLES, weights=[0.7, 0.1, 0.05, 0.05, 0.05, 0.05])[ - 0 - ] - else: - return random.choices( - FEMALE_TITLES, weights=[0.3, 0.25, 0.20, 0.05, 0.05, 0.05, 0.05, 0.05] - )[0] - - -def generate_titles(gender: pd.Series): - return gender.apply(generate_title) - - -def generate_roles(length): - roles = [ - "President", - "Vice-president", - "Chief of staff", - "Chief Architect", - "CEO", - "CFO", - "Engineer", - "Accountant", - "Attorney", - "Scientist", - "Journalist", - "Operator", - "CIO", - "Chief Information Officer", - "General Manager", - "Manager", - "Chief Executive Officer", - "Actuary", - "Secretary", - "Prime minister", - "Minister", - "Director", - ] - return [random.choice(roles) for _ in range(length)] - - -def generate_nationality(length, nationality_generator): - return [nationality_generator.get_nationality() for _ in range(length)] - - -def generate_us_driver_licenses(length, us_driver_license_generator): - return [ - us_driver_license_generator.get_driver_license_number() for _ in range(length) - ] - - -def generate_country(length, nationality_generator): - return [nationality_generator.get_country() for _ in range(length)] - - -def generate_nation_woman(length, nationality_generator): - return [nationality_generator.get_nation_woman() for _ in range(length)] - - -def generate_nation_man(length, nationality_generator): - return [nationality_generator.get_nation_man() for _ in range(length)] - - -def generate_nation_plural(length, nationality_generator): - return [nationality_generator.get_nation_plural() for _ in range(length)] diff --git a/presidio_evaluator/data_generator/faker_extensions/__init__.py b/presidio_evaluator/data_generator/faker_extensions/__init__.py index b0be7e9..3653c24 100644 --- a/presidio_evaluator/data_generator/faker_extensions/__init__.py +++ b/presidio_evaluator/data_generator/faker_extensions/__init__.py @@ -1,10 +1,24 @@ -from .span_generator import SpanGenerator, Span, SpansResult +from .data_objects import FakerSpan, FakerSpansResult +from .span_generator import SpanGenerator from .record_generator import RecordGenerator +from .records_faker import RecordsFaker +from .providers import ( + NationalityProvider, + OrganizationProvider, + UsDriverLicenseProvider, + IpAddressProvider, + AddressProviderNew, +) __all__ = [ "SpanGenerator", - "Span", - "SpansResult", - "RecordGenerator" - + "FakerSpan", + "FakerSpansResult", + "RecordGenerator", + "NationalityProvider", + "OrganizationProvider", + "UsDriverLicenseProvider", + "IpAddressProvider", + "AddressProviderNew", + "RecordsFaker" ] diff --git a/presidio_evaluator/data_generator/faker_extensions/data_objects.py b/presidio_evaluator/data_generator/faker_extensions/data_objects.py new file mode 100644 index 0000000..13e4f6f --- /dev/null +++ b/presidio_evaluator/data_generator/faker_extensions/data_objects.py @@ -0,0 +1,45 @@ +from dataclasses import dataclass +import dataclasses +import json +from typing import Optional, List + + +@dataclass(eq=True) +class FakerSpan: + """FakerSpan holds the start, end, value and type of every element replaced.""" + + value: str + start: int + end: int + type: str + + def __repr__(self): + return json.dumps(dataclasses.asdict(self)) + + +@dataclass() +class FakerSpansResult: + """FakerSpansResult holds the full fake sentence, the original template + and a list of spans for each element replaced.""" + + fake: str + spans: List[FakerSpan] + template: Optional[str] = None + template_id: Optional[int] = None + + def __str__(self): + return self.fake + + def __repr__(self): + return json.dumps(dataclasses.asdict(self)) + + def toJSON(self): + spans_dict = json.dumps([dataclasses.asdict(span) for span in self.spans]) + return json.dumps( + { + "fake": self.fake, + "spans": spans_dict, + "template": self.template, + "template_id": self.template_id, + } + ) diff --git a/presidio_evaluator/data_generator/faker_extensions/providers.py b/presidio_evaluator/data_generator/faker_extensions/providers.py new file mode 100644 index 0000000..d52a163 --- /dev/null +++ b/presidio_evaluator/data_generator/faker_extensions/providers.py @@ -0,0 +1,147 @@ +from collections import OrderedDict +from pathlib import Path +import random +from typing import Union + +import pandas as pd +from faker.providers import BaseProvider +from faker.providers.address.en import AddressProvider + + +class NationalityProvider(BaseProvider): + def __init__(self, generator, nationality_file: Union[str, Path] = None): + super().__init__(generator=generator) + if not nationality_file: + nationality_file = Path( + Path(__file__).parent.parent, "raw_data", "nationalities.csv" + ).resolve() + + self.nationality_file = nationality_file + self.nationalities = self.load_nationalities() + + def load_nationalities(self): + return pd.read_csv(self.nationality_file) + + def country(self): + self.random_element(self.nationalities["country"].tolist()) + + def nationality(self): + return self.random_element(self.nationalities["nationality"].tolist()) + + def nation_man(self): + return self.random_element(self.nationalities["man"].tolist()) + + def nation_woman(self): + return self.random_element(self.nationalities["woman"].tolist()) + + def nation_plural(self): + return self.random_element(self.nationalities["plural"].tolist()) + + +class OrganizationProvider(BaseProvider): + def __init__( + self, + generator, + organizations_file: Union[str, Path] = None, + ): + super().__init__(generator=generator) + if not organizations_file: + organizations_file = Path( + Path(__file__).parent.parent, "raw_data", "organizations.csv" + ).resolve() + self.organizations_file = organizations_file + self.organizations = self.load_organizations() + + def load_organizations(self): + return pd.read_csv(self.organizations_file, delimiter="\t") + + def organization(self): + return self.random_element(self.organizations["organization"].tolist()) + + +class UsDriverLicenseProvider(BaseProvider): + def __init__( + self, + generator, + us_driver_license_file: Union[str, Path] = None, + ): + super().__init__(generator=generator) + if not us_driver_license_file: + us_driver_license_file = Path( + Path(__file__).parent.parent, "raw_data", "us_driver_licenses.csv" + ).resolve() + self.us_driver_license_file = us_driver_license_file + self.us_driver_licenses = self.load_us_driver_licenses() + + def us_driver_license(self): + return self.random_element( + self.us_driver_licenses["us_driver_license"].tolist() + ) + + def load_us_driver_licenses(self): + return pd.read_csv(self.us_driver_license_file, delimiter="\t") + + +class IpAddressProvider(BaseProvider): + """Generating both v4 and v6 IP addresses.""" + + def ip_address(self): + if random.random() < 0.8: + return self.generator.ipv4() + else: + return self.generator.ipv6() + + +class AddressProviderNew(AddressProvider): + """ + Extending the Faker AddressProvider with additional templates + """ + + address_formats = OrderedDict( + ( + ( + "{{building_number}} {{street_name}} {{secondary_address}} {{city}} {{state}}", + 5.0, + ), + ( + "{{building_number}} {{street_name}} {{secondary_address}} {{city}} {{state_abbr}}", + 5.0, + ), + ( + "{{building_number}} {{street_name}} {{secondary_address}} {{city}} {{country}}", + 5.0, + ), + ( + "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}}", + 5.0, + ), + ( + "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + 5.0, + ), + ( + "{{street_name}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + 5.0, + ), + ("the corner of {{street_name}} and {{street_name}}", 3.0), + ("{{first_name}} and {{street_name}}", 3.0), + ("{{street_address}}, {{city}}, {{country}}", 5.0), + ( + "{{street_address}} {{secondary_address}}, {{city}}, {{country}} {{postcode}}", + 5.0, + ), + ("{{street_address}}\n{{city}}, {{state_abbr}} {{postcode}}", 25.0), + ("{{street_address}}\n{{city}}\n, {{state_abbr}}\n {{postcode}}", 25.0), + ( + "{{street_address}}\n{{city}}\n, {{state_abbr}}\n {{country}} {{postcode}}", + 25.0, + ), + # military address formatting. + ("{{military_apo}}\nAPO {{military_state}} {{postcode}}", 1.0), + ( + "{{military_ship}} {{last_name}}\nFPO {{military_state}} {{postcode}}", + 1.0, + ), + ("{{military_dpo}}\nDPO {{military_state}} {{postcode}}", 1.0), + ) + ) diff --git a/presidio_evaluator/data_generator/faker_extensions/record_generator.py b/presidio_evaluator/data_generator/faker_extensions/record_generator.py index 80104b7..6cff655 100644 --- a/presidio_evaluator/data_generator/faker_extensions/record_generator.py +++ b/presidio_evaluator/data_generator/faker_extensions/record_generator.py @@ -2,7 +2,7 @@ from faker.providers import DynamicProvider from faker.generator import _re_token -from presidio_evaluator.data_generator.faker_extensions import Span, SpanGenerator +from presidio_evaluator.data_generator.faker_extensions import FakerSpan, SpanGenerator class RecordGenerator(SpanGenerator): @@ -81,22 +81,24 @@ def __init__(self, records: Optional[List[Dict]] = None): def _get_random_record(self): return self.dynamic_record_provider.get_random_value().copy() - def _match_to_span(self, text: str, **kwargs) -> List[Span]: + def _match_to_span(self, text: str, **kwargs) -> List[FakerSpan]: """Adds logic for sampling from input records if possible.""" matches = _re_token.finditer(text) - record = self._get_random_record() # Sample one record (Dict containing fake values) + record = ( + self._get_random_record() + ) # Sample one record (Dict containing fake values) - results: List[Span] = [] + results: List[FakerSpan] = [] for match in matches: formatter = match.group()[2:-2] stripped = formatter.strip() - value = self.format(formatter=stripped, record=record) + value = str(self.format(formatter=stripped, record=record)) if stripped in record: del record[stripped] # Remove in order not to sample twice results.append( - Span( + FakerSpan( type=formatter, start=match.start(), end=match.end(), diff --git a/presidio_evaluator/data_generator/faker_extensions/records_faker.py b/presidio_evaluator/data_generator/faker_extensions/records_faker.py new file mode 100644 index 0000000..d63dbcb --- /dev/null +++ b/presidio_evaluator/data_generator/faker_extensions/records_faker.py @@ -0,0 +1,16 @@ +from typing import Union, Dict, List + +from faker import Faker +import pandas as pd + +from presidio_evaluator.data_generator.faker_extensions import RecordGenerator + + +class RecordsFaker(Faker): + + def __init__(self, records: Union[pd.DataFrame, List[Dict]], **kwargs): + if isinstance(records, pd.DataFrame): + records = records.to_dict(orient="records") + + record_generator = RecordGenerator(records=records) + super().__init__(generator=record_generator, **kwargs) diff --git a/presidio_evaluator/data_generator/faker_extensions/span_generator.py b/presidio_evaluator/data_generator/faker_extensions/span_generator.py index 0bfac78..9cbceb9 100644 --- a/presidio_evaluator/data_generator/faker_extensions/span_generator.py +++ b/presidio_evaluator/data_generator/faker_extensions/span_generator.py @@ -1,41 +1,14 @@ -import dataclasses -import json import re -from dataclasses import dataclass -from typing import List, Union +from typing import List, Union, Optional from faker import Generator -_re_token = re.compile(r"\{\{\s*(\w+)(:\s*\w+?)?\s*\}\}") - - -@dataclass(eq=True) -class Span: - """Span holds the start, end, value and type of every element replaced.""" - - value: str - start: int - end: int - type: str - - def __repr__(self): - return json.dumps(dataclasses.asdict(self)) - +from presidio_evaluator.data_generator.faker_extensions import ( + FakerSpansResult, + FakerSpan, +) -@dataclass() -class SpansResult: - """SpanResult holds the full fake sentence - and a list of spans for each element replaced.""" - - fake: str - spans: List[Span] - - def __str__(self): - return self.fake - - def __repr__(self): - spans_dict = json.dumps([dataclasses.asdict(span) for span in self.spans]) - return json.dumps({"fake": self.fake, "spans": spans_dict}) +_re_token = re.compile(r"\{\{\s*(\w+)(:\s*\w+?)?\s*\}\}") class SpanGenerator(Generator): @@ -57,12 +30,15 @@ class SpanGenerator(Generator): "My child's name is Daniel Gallagher" """ - def parse(self, text: str, add_spans: bool = False) -> Union[str, SpansResult]: + def parse( + self, text: str, add_spans: bool = False, template_id: Optional[int] = None + ) -> Union[str, FakerSpansResult]: """Parses a Faker template. This replaces the original parse method to introduce spans. :param text: Text holding the faker template, e.g. "My name is {{name}}". :param add_spans: Whether to return the spans of each fake value in the output string + :param template_id: Template ID to be returned with the output """ # Create Span objects for original placeholders @@ -78,11 +54,11 @@ def parse(self, text: str, add_spans: bool = False) -> Union[str, SpansResult]: for i, span in enumerate(spans): formatter = span.type old_len = len(formatter) + 4 # adding two curly brackets - new_len = len(span.value) + new_len = len(str(span.value)) # Update full text - fake_text = text[span.end : prev_end] + fake_text - fake_text = span.value + fake_text + fake_text = str(text[span.end : prev_end]) + str(fake_text) + fake_text = str(span.value) + str(fake_text) prev_end = span.start if add_spans: # skip if spans aren't required @@ -99,20 +75,26 @@ def parse(self, text: str, add_spans: bool = False) -> Union[str, SpansResult]: # Add the beginning of the sentence fake_text = text[0:prev_end] + fake_text - return SpansResult(fake=fake_text, spans=spans) if add_spans else fake_text + return ( + FakerSpansResult( + fake=fake_text, spans=spans, template=text, template_id=template_id + ) + if add_spans + else fake_text + ) - def _match_to_span(self, text: str, **kwargs) -> List[Span]: + def _match_to_span(self, text: str, **kwargs) -> List[FakerSpan]: matches = _re_token.finditer(text) - results: List[Span] = [] + results: List[FakerSpan] = [] for match in matches: formatter = match.group()[2:-2] results.append( - Span( + FakerSpan( type=formatter, start=match.start(), end=match.end(), - value=self.format(formatter.strip(), **kwargs), + value=str(self.format(formatter.strip(), **kwargs)), ) ) diff --git a/presidio_evaluator/data_generator/generator.py b/presidio_evaluator/data_generator/generator.py deleted file mode 100644 index 748f681..0000000 --- a/presidio_evaluator/data_generator/generator.py +++ /dev/null @@ -1,468 +0,0 @@ -import random -import re -from collections import Counter -from typing import List, Optional, Dict - -import pandas as pd -from spacy.tokens import Token -from tqdm import tqdm - -from presidio_evaluator import Span, InputSample -from presidio_evaluator.data_generator import ( - OrgNameGenerator, - NationalityGenerator, - UsDriverLicenseGenerator, -) -from presidio_evaluator.data_generator.extensions import ( - generate_iban, - generate_ip_addresses, - generate_SSNs, - generate_company_names, - generate_url, - generate_roles, - generate_titles, - generate_nationality, - generate_nation_man, - generate_nation_woman, - generate_nation_plural, - generate_title, - generate_country, - generate_us_driver_licenses, -) - - -class FakeDataGenerator: - def __init__( - self, - fake_pii_df: pd.DataFrame, - templates: Optional[List[str]], - lower_case_ratio: float = 0.5, - include_metadata=True, - dictionary_path: str = None, - ignore_types=None, - span_to_tag=True, - labeling_scheme="BILOU", - ): - """ - Fake data generator. - Attaches fake PII entities into predefined templates of structure: a b c [PII] d e f, - e.g. "My name is [FIRST_NAME]" - :param fake_pii_df: - A pd.DataFrame with a predefined set of PII entities as columns created using https://www.fakenamegenerator.com/ - :param templates: A list of templates - with place holders for PII entities. - For example: "My name is [FIRST_NAME] and I live in [ADDRESS]" - Note that in case you have multiple entities of the same type - in a template, you should put a number on the second. For example: - "I'm changing my name from [FIRST_NAME] to [FIRST_NAME2]. - More than two are currently not supported but extending this - is straightforward. - :param lower_case_ratio: Percentage of names that should start - with lower case - :param include_metadata: Whether to include additional - information in the output - (e.g. NameSet from which the name was taken, gender, country etc.) - :param dictionary_path: A path to a csv containing a vocabulary of - a language, to check if a token exists in the vocabulary or not. - :param ignore_types: set of types to ignore - :param span_to_tag: whether to tokenize the generated samples or not - :param labeling_scheme: labeling scheme (BILOU, BIO, IO) - """ - if ignore_types is None: - ignore_types = {} - self.lower_case_ratio = lower_case_ratio - self.include_metadata = include_metadata - self.ignore_types = ignore_types - - if dictionary_path: - vocab_df = pd.read_csv(dictionary_path, sep=",") - self.vocabulary_words = set(vocab_df["WORD"].values.tolist()) - else: - print( - "Warning: Dictionary path not provided. " - "Feature `is_in_vocabulary` will be set to False for all samples" - ) - self.vocabulary_words = [] - Token.set_extension( - "is_in_vocabulary", getter=self.get_is_in_vocabulary, force=True - ) - - if templates: - self.templates = self._prep_templates(templates) - else: - self.templates = None - self.original_pii_df = fake_pii_df - self.fake_pii = None - self.span_to_tag = span_to_tag - self.labeling_scheme = labeling_scheme - - self.org_name_generator = OrgNameGenerator() - self.nationality_generator = NationalityGenerator() - self.us_driver_license_generator = UsDriverLicenseGenerator() - - def get_is_in_vocabulary(self, token): - return token.text.lower() in self.vocabulary_words - - def prep_fake_pii(self, df): - print("Preparing fake PII data for ingestion") - # define new column names - column_names = { - "Surname": "LAST_NAME", - "GivenName": "FIRST_NAME", - "Title": "TITLE", - "Gender": "GENDER", - "City": "CITY", - "ZipCode": "ZIP", - "CountryFull": "COUNTRY", - "Occupation": "OCCUPATION", - "TelephoneNumber": "PHONE_NUMBER", - "CCNumber": "CREDIT_CARD", - "Birthday": "BIRTHDAY", - "EmailAddress": "EMAIL_ADDRESS", - "StreetAddress": "FULL_ADDRESS", - "Domain": "DOMAIN_NAME", - "NameSet": "NAMESET", - } - - # Remove brackets as they interfere with the process - - def remove_brackets(series): - if series.dtype == str: - series = series.str.replace("[", "(") - series = series.str.replace("]", ")") - return series - - df = df.apply(remove_brackets, axis=0) - - # change column names - column_names = { - key: value - for (key, value) in column_names.items() - if value not in self.ignore_types - } - df.rename(columns=column_names, inplace=True) - - # define PERSON as FIRST_NAME + LAST_NAME - df["PERSON"] = df["FIRST_NAME"] + " " + df["LAST_NAME"] - - if "COUNTRY" not in self.ignore_types: - df["COUNTRY"] = generate_country( - len(df), self.nationality_generator - ) # replace previous country which has limited options - - # Copied entities - if "DATE_TIME" not in self.ignore_types: - if "BIRTHDAY" in df: - df["DATE_TIME"] = df["BIRTHDAY"] - else: - print("DATE is taken from the BIRTHDAY column which is missing") - - if "LOCATION" not in self.ignore_types: - df["LOCATION"] = df[random.choice(["CITY", "COUNTRY"])].str.title() - df["LOCATION"] = self._reshuffle_entity( - df["LOCATION"] - ) # Reshuffle to not have the same location and country - - if "ADDRESS" not in self.ignore_types: - self._address_parts(df) - - # title and role - if "ROLE" not in self.ignore_types: - print("Generating roles") - df["ROLE"] = generate_roles(length=len(df)) - if "TITLE" not in self.ignore_types: - print("Generating titles") - if "GENDER" not in df: - print( - "Cannot generate title without a GENDER column. Generating FEMALE_TITLE and MALE_TITLE" - ) - else: - df["TITLE"] = generate_titles(df["GENDER"]) - df["FEMALE_TITLE"] = [generate_title("female") for _ in range(len(df))] - df["MALE_TITLE"] = [generate_title("male") for _ in range(len(df))] - - if "NATIONALITY" not in self.ignore_types: - print("Generating nationalities") - df["NATIONALITY"] = generate_nationality( - len(df), self.nationality_generator - ) - df["NATION_MAN"] = generate_nation_man(len(df), self.nationality_generator) - df["NATION_WOMAN"] = generate_nation_woman( - len(df), self.nationality_generator - ) - df["NATION_PLURAL"] = generate_nation_plural( - len(df), self.nationality_generator - ) - - if "IBAN" not in self.ignore_types: - print("Generating IBANs") - df["IBAN"] = generate_iban(df["COUNTRY"]) # "IL270126100000000544211" - - if "IP_ADDRESS" not in self.ignore_types: - print("Generating IP addresses") - df["IP_ADDRESS"] = generate_ip_addresses(len(df)) - - if "US_SSN" not in self.ignore_types: - print("Generating SSN numbers") - df["US_SSN"] = generate_SSNs(len(df)) - - if "US_DRIVER_LICENSE" not in self.ignore_types: - print("Generating US driver license numbers") - df["US_DRIVER_LICENSE"] = generate_us_driver_licenses( - len(df), self.us_driver_license_generator - ) - - if "URL" not in self.ignore_types: - print("Generating URLs") - if "DOMAIN_NAME" not in df: - print("Cannot generate url without a domain name") - else: - df["URL"] = generate_url(df["DOMAIN_NAME"]) - - if "ORGANIZATION" not in self.ignore_types: - print("Generating company names") - df["ORG"] = generate_company_names(len(df), self.org_name_generator) - if "Company" in df: - df["ORGANIZATION"] = df[random.choice(["Company", "ORG"])].str.title() - else: - # Keep both - df["ORGANIZATION"] = df["ORG"] - - print("Finished preparing fake PII data") - - return df - - def _address_parts(self, df): - # extract street no, street and full address - print("Generating address parts") - if "STREET_NO" not in self.ignore_types: - df["STREET_NO"] = df["FULL_ADDRESS"].map( - lambda r: re.search(r"([\d]+)", r).group(1) - ) - if "STREET" not in self.ignore_types: - df["STREET"] = df["FULL_ADDRESS"].map( - lambda r: re.search(r"[\d]+(.*)", r).group(1) - ) - if "ADDRESS" not in self.ignore_types: - df["ADDRESS"] = df.apply( - lambda r: "{0}, {2} {1}".format( - r["FULL_ADDRESS"], r["ZIP"].replace(" ", ""), r["CITY"] - ), - axis=1, - ) - - @staticmethod - def _get_additional_entity(df, entity): - return df.sample(1).iloc[0][entity] - - @staticmethod - def _reshuffle_entity(series): - shuffled = series.sample(frac=1) - shuffled.reset_index(inplace=True, drop=True) - return shuffled - - @staticmethod - def _prep_templates(raw_templates): - print("Preparing sample sentences for ingestion") - # Todo: introduce typos - templates = [ - template.strip().replace("[", "{").replace("]", "}") - for template in raw_templates - ] - return templates - - @staticmethod - def get_template_entities(template): - templates = [] - entities_count = Counter() - for m in re.finditer(r"\{([A-Z_0-9]+)\}", template): - ent = m.groups()[0] - start, end = m.span() - entities_count[ent] += 1 - if entities_count.get(ent) == 1: - templates.append(ent) - else: - # Add an index to all additional entities of this type (LOCATION2, LOCATION3 etc.) - templates.append(ent + str(entities_count[ent])) - - for entity, count in entities_count.items(): - while count > 1: - template = template.replace( - "{" + entity + "}", "{" + entity + str(count) + "}", 1 - ) - count -= 1 - - return template, templates, entities_count - - def sample_examples( - self, count, genders: List[str] = None, namesets: List[str] = None - ): - - if self.fake_pii is None: - self.fake_pii = self.prep_fake_pii(self.original_pii_df) - - for _ in tqdm(range(count)): - template_sentence_index = random.choice(range(len(self.templates))) - original_sentence = self.templates[template_sentence_index] - - fake_pii_subset = self._filter_fake_pii(genders, namesets) - - fake_pii_sample = fake_pii_subset.sample(1).iloc[0] - - # Find entities to be replaced + add running index for multiple entities of the same type - original_sentence, replacements, entity_counts = self.get_template_entities( - original_sentence - ) - - # Get additional fake entries in case of multiple entities of the same type - fake_pii_sample_duplicated = self._add_duplicated_entities( - fake_pii_sample, entity_counts - ) - - # Fill in fake entities for each template slot - values = {} - for h in replacements: - if h in fake_pii_sample_duplicated: - values[h] = str(fake_pii_sample_duplicated[h]) - else: - print( - f"Warning: entity {h} is in the templates but not in the PII dataset. Ignoring." - ) - values[h] = "" - - # Create a new InputSample combining template with fake PII data - input_sample = self._create_input_sample(original_sentence, values) - - if self.include_metadata: - metadata = { - "Gender": fake_pii_sample["GENDER"], - "NameSet": fake_pii_sample["NAMESET"], - "Country": fake_pii_sample["COUNTRY"], - "Lowercase": input_sample.full_text.islower(), - "Template#": template_sentence_index, - } - input_sample.metadata = metadata - - self._consolidate_names(input_sample) - - # Creating tokens only after entities consolidation - if self.span_to_tag: - tokens, tags = input_sample.get_tags(scheme=self.labeling_scheme) - input_sample.tokens = tokens - input_sample.tags = tags - - yield input_sample - - @staticmethod - def _consolidate_names(input_sample: InputSample): - locations = ("LOCATION", "CITY", "STATE", "COUNTRY", "ADDRESS", "STREET") - names = ("FIRST_NAME", "LAST_NAME", "PERSON") - - for span in input_sample.spans: - if span.entity_type in names: - span.entity_type = "PERSON" - elif span.entity_type in locations: - span.entity_type = "LOCATION" - - masked = input_sample.masked - for location in locations: - masked = masked.replace("[" + location + "]", "[LOCATION]") - for name in names: - masked = masked.replace("[" + name + "]", "[PERSON]") - - input_sample.masked = masked - - def _create_input_sample( - self, original_sentence: str, values: Dict[str, str] - ) -> InputSample: - """ - Creates an InputSample out of a template sentence - and a dict of entity names and values - :param original_sentence: template (e.g. My name is [FIRST_NAME}) - :param values: Key = entity name, value = entity value - (e.g. {"TITLE":"Mr."}) - :return: a list of InputSamples - """ - sentence = original_sentence - spans = [] - - to_lower = random.random() < self.lower_case_ratio - - i = 0 - # replaces placeholders with values and retrieve indices - while i < len(sentence): - entity_start = re.search("{", sentence, flags=0) - if entity_start: - entity_start = entity_start.start() - else: - break - entity_end = ( - re.search("}", sentence[entity_start:], flags=0).start() + entity_start - ) - entity = sentence[entity_start + 1 : entity_end] - entity_value = values[entity] - entity_value = entity_value.strip() - # Remove duplicate entity indices: - entity = "".join(i for i in entity if not i.isdigit()) - - entity_value_len = len(entity_value) - sentence = ( - sentence[:entity_start] + entity_value + sentence[entity_end + 1 :] - ) - # replace a with an if - if ( - ( - sentence[entity_start - 2 : entity_start].lower() == "a " - and entity_start == 2 - ) - or (sentence[entity_start - 3 : entity_start].lower() == " a ") - ) and entity_value[0].lower() in ["a", "e", "i", "o", "u"]: - sentence = sentence[: entity_start - 1] + "n " + sentence[entity_start:] - entity_start = entity_start + 1 - - if to_lower: - entity_value = entity_value.lower() - - spans.append( - Span( - entity_type=entity, - entity_value=entity_value, - start_position=entity_start, - end_position=entity_start + entity_value_len, - ) - ) - i = entity_start + entity_value_len - - if to_lower: - sentence = sentence.lower() - - # Not creating tokens here since we're consolidating names afterwards - return InputSample( - full_text=sentence, - spans=spans, - masked=original_sentence, - create_tags_from_span=False, - ) - - def _add_duplicated_entities(self, fake_pii_sample, entity_counts): - for entity, ent_count in entity_counts.items(): - while ent_count > 1: - fake_pii_sample[entity + str(ent_count)] = self._get_additional_entity( - self.fake_pii, entity - ) - ent_count -= 1 - - return fake_pii_sample - - def _filter_fake_pii(self, genders, namesets): - """ - Return a subset of the fake pii data frame based on the provided params - """ - subset = self.fake_pii - - if genders: - subset = subset[subset["GENDER"].isin(genders)] - if namesets: - subset = subset[subset["NAMESET"].isin(namesets)] - - return subset diff --git a/presidio_evaluator/data_generator/generator_new.py b/presidio_evaluator/data_generator/generator_new.py deleted file mode 100644 index e172a83..0000000 --- a/presidio_evaluator/data_generator/generator_new.py +++ /dev/null @@ -1,114 +0,0 @@ -import re -from faker import Faker -from typing import List, Optional -from pathlib import Path -from pprint import pprint - -class FakeDataGenerator: - def __init__( - self, - custom_faker: Faker = None, - locale: Optional[List[str]] = None - ): - """ - Fake data generator. - Leverages Faker to create fake PII entities into predefined templates of structure: a b c {{PII}} d e f, - e.g. "My name is {{first_name}}." - :param custom_faker: A Faker object provided by the user - :param locale: A locale object to create our own Faker instance if a custom one was not provided. - """ - if custom_faker: - self.faker = custom_faker - else: - self.faker = Faker(locale) - - def parse(self, template: str): - """ - Currently only parses a template using Faker. - Could use more ways to parse depending on what - all we need to parse - Args: - template: str with token(s) that needs to be replaced by fake PII - Examples: - 1. "My name is {{first_name_female}} {{last_name}}". - 2. "I want to increase limit on my card # {{credit_card_number}} - for certain duration of time. is it possible?" - Returns: - A sentence with fake PII in it [or] an Exception. - """ - try: - pattern = self.faker.parse(template, add_spans=True) - return pattern - except Exception as err: - raise AttributeError(f"{err}! You could create a new provider!") - - def generate_fake_pii_for_template(self, template): - """ - This function replaces known PII {{tokens}} in a template sentence - with a fake value for each token and returns a sentence with fake PII. - - Args: - template: str with token(s) that needs to be replaced by fake PII - Examples: - 1. "My name is {{first_name_female}} {{last_name}}". - 2. "I want to increase limit on my card # {{credit_card_number}} - for certain duration of time. is it possible?" - - Returns: - Fake sentence. - - """ - pattern = self.parse(template) - return pattern - - @staticmethod - def read_template_file(templates_file): - with open(templates_file) as f: - return f.readlines() - - @staticmethod - def _prep_templates(raw_templates): - print("Preparing sample sentences for ingestion") - def make_lower_case(match_obj): - if match_obj.group() is not None: - return match_obj.group().lower() - - templates = [( - re.sub(r'\[.*?\]', make_lower_case, template.strip()) - .replace("[", "{"+"{") - .replace("]", "}"+"}") - ) - for template in raw_templates - ] - - return templates - - def generate_fake_data(self, - templates_file): - """ - Generates fake PII data whenever it encounters known faker entities in a template. - Args: - templates_file: A path to a Faker-style template file - Returns: - List: Example Sentences with fake values for PII entities in templates - """ - - templates = self.read_template_file(templates_file) - - if templates: - self.templates = self._prep_templates(templates) - else: - self.templates = None - - examples = [] - for template in self.templates: - examples.append(self.generate_fake_pii_for_template(template)) - return examples - -if __name__ == "__main__": - - template_file_path = Path(__file__).parent / "raw_data" / "faker_templates.txt" - custom_faker = Faker('fa_IR') - generator = FakeDataGenerator(custom_faker=None, locale='jp_JP') - fake_patterns = generator.generate_fake_data(template_file_path) - pprint(fake_patterns) diff --git a/presidio_evaluator/data_generator/main.py b/presidio_evaluator/data_generator/main.py deleted file mode 100644 index f3f4464..0000000 --- a/presidio_evaluator/data_generator/main.py +++ /dev/null @@ -1,124 +0,0 @@ -import datetime -import json -import warnings - -import pandas as pd - -from presidio_evaluator import InputSample -from presidio_evaluator.data_generator import FakeDataGenerator - - -def read_utterances(utterances_file): - with open(utterances_file) as f: - return f.readlines() - - -def generate( - fake_pii_csv, - utterances_file, - output_file=None, - num_of_examples=1000, - dictionary_path=None, - store_masked_text=False, - keep_only_tagged=False, - **kwargs -): - """ - - :param fake_pii_csv: csv containing fake PII - :param utterances_file: txt file containing template sentences - :param output_file: filepath for json or csv output - :param num_of_examples: number of examples to generate - :param dictionary_path: path to vocabulary file - :param store_masked_text: Whether to remove or keep masked version of text - :param keep_only_tagged: Ignore utterances with no entity - (e.g. Remove: 'I went to the shop today', Keep: '[PERSON] went to the shop today') - :return: list of generated InputSamples - """ - - if not output_file: - warnings.warn("Warning: no output_file value provided.") - - templates = read_utterances(utterances_file) - - if keep_only_tagged: - templates = [template for template in templates if "[" in template] - - df = pd.read_csv(fake_pii_csv, encoding="utf-8") - - generator = FakeDataGenerator( - fake_pii_df=df, dictionary_path=dictionary_path, templates=templates, **kwargs - ) - counter = 0 - - examples = [] - for example in generator.sample_examples(num_of_examples): - if not store_masked_text: - example.masked = None - examples.append(example) - - examples_json = [example.to_dict() for example in examples] - - with open("{}".format(output_file), "w+", encoding="utf-8") as f: - json.dump(examples_json, f, ensure_ascii=False, indent=4) - - print("generated {} examples".format(len(examples))) - print("Finished creating generated dataset. File location:{}".format(output_file)) - - return examples - - -def read_synth_dataset(filepath=None, length=None): - import json - - with open(filepath, "r", encoding="utf-8") as f: - dataset = json.load(f) - - if length: - dataset = dataset[:length] - - input_samples = [InputSample.from_json(row) for row in dataset] - - return input_samples - - -if __name__ == "__main__": - - # PARAMS: - EXAMPLES = 30 - PII_FILE_SIZE = 3000 - SPAN_TO_TAG = True - TEMPLATES_FILE = "raw_data/templates.txt" - KEEP_ONLY_TAGGED = False - LOWER_CASE_RATIO = 0.1 - IGNORE_TYPES = {"IP_ADDRESS", "US_SSN", "URL"} - - cur_time = datetime.date.today().strftime("%B %d %Y") - OUTPUT = "generated_size_{}_date_{}.txt".format(EXAMPLES, cur_time) - - fake_pii_csv = ( - "../../presidio_evaluator/data_generator/" - "raw_data/FakeNameGenerator.com_{}.csv".format(PII_FILE_SIZE) - ) - utterances_file = TEMPLATES_FILE - dictionary_path = None - - examples = generate( - fake_pii_csv=fake_pii_csv, - utterances_file=utterances_file, - dictionary_path=dictionary_path, - output_file=OUTPUT, - lower_case_ratio=LOWER_CASE_RATIO, - num_of_examples=EXAMPLES, - ignore_types=IGNORE_TYPES, - keep_only_tagged=KEEP_ONLY_TAGGED, - span_to_tag=SPAN_TO_TAG, - ) - - # sanity - input_samples = read_synth_dataset(OUTPUT) - for sample in input_samples: - if len(sample.tags) != len(sample.tokens): - print("ERROR during generation. sample: {}".format(sample)) - - print(input_samples[:10]) diff --git a/presidio_evaluator/data_generator/nationality_generator.py b/presidio_evaluator/data_generator/nationality_generator.py deleted file mode 100644 index 98fe12e..0000000 --- a/presidio_evaluator/data_generator/nationality_generator.py +++ /dev/null @@ -1,48 +0,0 @@ -import random -import os -from pathlib import Path -import pandas as pd -import re - - -class NationalityGenerator: - def __init__(self, company_name_file_path="raw_data/nationalities.csv"): - dir_path = os.path.dirname(os.path.realpath(__file__)) - file_path = Path(dir_path, company_name_file_path) - df = pd.read_csv(str(file_path)) - - self.df = df - - def get_country(self): - ## [COUNTRY] - return NationalityGenerator.capitalizeWords( - random.choice(self.df["country"].values) - ) - - def get_nationality(self): - ## [NATIONALITY] - return NationalityGenerator.capitalizeWords( - random.choice(self.df["nationality"].values) - ) - - def get_nation_woman(self): - ## [NATION_WOMAN] - return NationalityGenerator.capitalizeWords( - random.choice(self.df["woman"].values) - ) - - def get_nation_man(self): - ## [NATION_MAN] - return NationalityGenerator.capitalizeWords( - random.choice(self.df["man"].values) - ) - - def get_nation_plural(self): - ## [NATION_PLURAL] - return NationalityGenerator.capitalizeWords( - random.choice(self.df["plural"].values) - ) - - @staticmethod - def capitalizeWords(s): - return re.sub(r"\w+", lambda m: m.group(0).capitalize(), s) diff --git a/presidio_evaluator/data_generator/org_name_generator.py b/presidio_evaluator/data_generator/org_name_generator.py deleted file mode 100644 index d2cd63e..0000000 --- a/presidio_evaluator/data_generator/org_name_generator.py +++ /dev/null @@ -1,16 +0,0 @@ -import random -import os -from pathlib import Path - - -class OrgNameGenerator: - def __init__(self, company_name_file_path="raw_data/organizations.csv"): - self.companies = [] - dir_path = os.path.dirname(os.path.realpath(__file__)) - file_path = Path(dir_path, company_name_file_path) - - with open(str(file_path)) as file: - self.companies = file.read().splitlines() - - def get_organization(self): - return random.choice(self.companies) diff --git a/presidio_evaluator/data_generator/presidio_data_generator.py b/presidio_evaluator/data_generator/presidio_data_generator.py new file mode 100644 index 0000000..1d38cf3 --- /dev/null +++ b/presidio_evaluator/data_generator/presidio_data_generator.py @@ -0,0 +1,275 @@ +import dataclasses +import json +import random +import re +from pathlib import Path +from typing import List, Optional, Union, Generator + +import numpy as np +import pandas as pd +from faker import Faker +from faker.providers import BaseProvider +from tqdm import tqdm + +from presidio_evaluator.data_generator.faker_extensions import ( + FakerSpansResult, + NationalityProvider, + OrganizationProvider, + RecordGenerator, + UsDriverLicenseProvider, + IpAddressProvider, + AddressProviderNew, + SpanGenerator, RecordsFaker, +) + + +class PresidioDataGenerator: + def __init__( + self, + custom_faker: Faker = None, + locale: Optional[List[str]] = None, + lower_case_ratio: float = 0.05, + ): + """ + Fake data generator. + Leverages Faker to create fake PII entities into predefined templates of structure: a b c {{PII}} d e f, + e.g. "My name is {{first_name}}." + :param custom_faker: A Faker object provided by the user + :param locale: A locale object to create our own Faker instance if a custom one was not provided. + :param lower_case_ratio: Percentage of names that should start with lower case + + :example: + + >>>from presidio_evaluator.data_generator import PresidioDataGenerator + + >>>sentence_templates = [ + >>> "My name is {{name}}", + >>> "Please send it to {{address}}", + >>> "I just moved to {{city}} from {{country}}" + >>>] + + + >>>data_generator = PresidioDataGenerator() + >>>fake_records = data_generator.generate_fake_data( + >>> templates=sentence_templates, n_samples=10 + >>>) + + >>>fake_records = list(fake_records) + + >>># Print the spans of the first sample + >>>print(fake_records[0].fake) + I just moved to North Kim from Ukraine + + >>>print(fake_records[0].spans) + [{"value": "Ukraine", "start": 31, "end": 38, "type": "country"}, {"value": "North Kim", "start": 16, "end": 25, "type": "city"}] + + """ + if custom_faker and locale: + raise ValueError( + "If a custom faker is passed, it's expected to have its locales loaded" + ) + + if custom_faker: + self.faker = custom_faker + else: + generator = SpanGenerator() # To allow PresidioDataGenerator to return spans and not just strings + self.faker = Faker(local=locale, generator=generator) + self.lower_case_ratio = lower_case_ratio + + def parse( + self, template: str, template_id: Optional[int] = None, add_spans: bool = True + ) -> Union[FakerSpansResult, str]: + """ + This function replaces known PII {{tokens}} in a template sentence + with a fake value for each token and returns a sentence with fake PII. + + Examples: + 1. "My name is {{first_name_female}} {{last_name}}". + 2. "I want to increase limit on my card # {{credit_card_number}} + for certain duration of time. is it possible?" + + + :param template: str with token(s) that needs to be replaced by fake PII + :param template_id: The identifier of the specific template + :param add_spans: Whether to return the spans or just the fake text + + :returns: Fake sentence. + + """ + try: + if isinstance(self.faker.factories[0], SpanGenerator): + fake_pattern = self.faker.parse( + template, add_spans=add_spans, template_id=template_id + ) + else: + fake_pattern = self.faker.parse(template) + if random.random() < self.lower_case_ratio: + fake_pattern = self._lower_pattern(fake_pattern) + return fake_pattern + except Exception as err: + raise AttributeError( + f'Failed to generate fake data based on template "{template}".' + f"You might need to add a new Faker provider! " + f"{err}" + ) + + @staticmethod + def read_template_file(templates_file): + with open(templates_file) as f: + lines = f.readlines() + lines = [line.replace("\\n", "\n") for line in lines] + return lines + + @staticmethod + def _prep_templates(raw_templates): + print("Preparing sample sentences for ingestion") + + def make_lower_case(match_obj): + if match_obj.group() is not None: + return match_obj.group().lower() + + templates = [ + ( + re.sub(r"\[.*?\]", make_lower_case, template.strip()) + .replace("[", "{" + "{") + .replace("]", "}" + "}") + ) + for template in raw_templates + ] + + return templates + + def generate_fake_data( + self, templates: List[str], n_samples: int + ) -> Union[Generator[FakerSpansResult, None, None], Generator[str, None, None]]: + """ + Generates fake PII data whenever it encounters known faker entities in a template. + :param templates: A list of strings containing templates + :param n_samples: Number of samples to generate + """ + + if templates: + templates = self._prep_templates(templates) + else: + templates = None + + for _ in tqdm(range(n_samples), desc="Sampling"): + template_id = random.choice(range(len(templates))) + template = templates[template_id] + yield self.parse(template, template_id) + + @staticmethod + def _lower_pattern(pattern: Union[str, FakerSpansResult]): + if isinstance(pattern, str): + return pattern.lower() + elif isinstance(pattern, FakerSpansResult): + pattern.fake = pattern.fake.lower() + for span in pattern.spans: + span.value = str(span.value).lower() + return pattern + + @staticmethod + def seed(seed_value=42): + Faker.seed(seed_value) + random.seed(seed_value) + np.random.seed(seed_value) + + def add_provider_alias(self, provider_name: str, new_name: str) -> None: + """ + Adds a copy of a provider, with a different name + :param provider_name: Name of original provider + :param new_name: New name + :example: + >>>add_provider_alias(provider_name="name", new_name="person") + >>>self.faker.person() + """ + original = getattr(self.faker, provider_name) + + new_provider = BaseProvider(self.faker) + setattr(new_provider, new_name, original) + self.faker.add_provider(new_provider) + + @staticmethod + def update_fake_name_generator_df(fake_data: pd.DataFrame) -> None: + """ + Turns column names from CamelCase to snake_case and renames a few columns + :param fake_data: a pd.DataFrame with loaded data from FakeNameGenerator.com + :return: None + """ + + def camel_to_snake(name): + # Borrowed from https://stackoverflow.com/questions/1175208/elegant-python-function-to-convert-camelcase-to-snake-case + name = re.sub("(.)([A-Z][a-z]+)", r"\1_\2", name) + return re.sub("([a-z0-9])([A-Z])", r"\1_\2", name).lower() + + fake_data.columns = [camel_to_snake(col) for col in fake_data.columns] + + # Update some column names to fit Faker + fake_data.rename( + columns={"country": "country_code", "state": "state_abbr"}, inplace=True + ) + + fake_data.rename( + columns={ + "country": "country_full", + "street_address": "street_name", + "state_full": "state", + "given_name": "first_name", + "surname": "last_name", + "title": "prefix", + "email_address": "email", + "telephone_number": "phone_number", + "telephone_country_code": "country_calling_code", + "birthday": "date_of_birth", + "cc_number": "credit_card_number", + "cc_type": "credit_card_provider", + "cc_expires": "credit_card_expire", + "occupation": "job", + "domain": "domain_name", + "username": "user_name", + }, + inplace=True, + ) + + +if __name__ == "__main__": + PresidioDataGenerator.seed(42) + + template_file_path = Path(Path(__file__).parent, "raw_data", "templates.txt") + + # Read FakeNameGenerator data + fake_data_df = pd.read_csv(Path(Path(__file__).parent, "raw_data", "FakeNameGenerator.com_3000.csv")) + # Convert column names to lowercase to match patterns + PresidioDataGenerator.update_fake_name_generator_df(fake_data_df) + + # Create a RecordsFaker (Faker object which prefers samples multiple objects from one record) + faker = RecordsFaker(records=fake_data_df, local="en_US") + faker.add_provider(IpAddressProvider) + faker.add_provider(NationalityProvider) + faker.add_provider(OrganizationProvider) + faker.add_provider(UsDriverLicenseProvider) + faker.add_provider(AddressProviderNew) # More address formats than Faker + + # Create Presidio Data Generator + data_generator = PresidioDataGenerator(custom_faker=faker, lower_case_ratio=0.05) + data_generator.add_provider_alias(provider_name="name", new_name="person") + data_generator.add_provider_alias( + provider_name="credit_card_number", new_name="credit_card" + ) + data_generator.add_provider_alias( + provider_name="date_of_birth", new_name="birthday" + ) + + sentence_templates = PresidioDataGenerator.read_template_file(template_file_path) + fake_patterns = data_generator.generate_fake_data( + templates=sentence_templates, n_samples=10000 + ) + + # save to json + output_file = Path( + Path(__file__).parent.parent.parent, "data", "presidio_data_generator_data.json" + ) + + to_json = [dataclasses.asdict(pattern) for pattern in fake_patterns] + with open("{}".format(output_file), "w+", encoding="utf-8") as f: + json.dump(to_json, f, ensure_ascii=False, indent=2) diff --git a/presidio_evaluator/data_generator/presidio_perturb.py b/presidio_evaluator/data_generator/presidio_perturb.py deleted file mode 100644 index 74422fe..0000000 --- a/presidio_evaluator/data_generator/presidio_perturb.py +++ /dev/null @@ -1,71 +0,0 @@ -from typing import List, Set, Dict - -from presidio_analyzer import RecognizerResult -from presidio_anonymizer import AnonymizerEngine - -from presidio_evaluator.data_generator import FakeDataGenerator - -import pandas as pd - - -class PresidioPerturb(FakeDataGenerator): - def __init__( - self, - fake_pii_df: pd.DataFrame, - lower_case_ratio: float = 0.0, - ignore_types: Set[str] = None, - ): - super().__init__( - fake_pii_df=fake_pii_df, - lower_case_ratio=lower_case_ratio, - ignore_types=ignore_types, - templates=None, - span_to_tag=False, - ) - """ - Gets a Presidio Analyzer response as input, and returns a list of sentences with fake PII entities - :param fake_pii_df: - A pd.DataFrame with a predefined set of PII entities as columns created using https://www.fakenamegenerator.com/ - :param lower_case_ratio: Percentage of names that should start - with lower case - :param ignore_types: set of types to ignore - """ - - self.fake_pii = self.prep_fake_pii(self.original_pii_df) - - def perturb( - self, - original_text: str, - presidio_response: List[RecognizerResult], - count: int, - genders: List[str] = None, - namesets: List[str] = None, - ): - """ - - :param original_text: str containing the original text - :param presidio_response: list of results from Presidio, to be used to know where entities are - :param count: number of perturbations to return - :param genders: gender valuse to use (options: 'female', 'male') - :param namesets: name set values to use (options are values from the FakeNameGenerator NameSet column) - :return: List[str] with fake perturbations of original text - """ - - presidio_response = sorted(presidio_response, key=lambda resp: resp.start) - - anonymizer_engine = AnonymizerEngine() - anonymized_result = anonymizer_engine.anonymize( - text=original_text, analyzer_results=presidio_response - ) - - text = anonymized_result.text - text = text.replace(">", "}").replace("<", "{") - - - self.templates = [text] - return [ - sample.full_text - for sample in self.sample_examples( - count=count, genders=genders, namesets=namesets - ) - ] diff --git a/presidio_evaluator/data_generator/presidio_pseudonymize.py b/presidio_evaluator/data_generator/presidio_pseudonymize.py new file mode 100644 index 0000000..df0a694 --- /dev/null +++ b/presidio_evaluator/data_generator/presidio_pseudonymize.py @@ -0,0 +1,59 @@ +from typing import List, Set, Dict + +from presidio_analyzer import RecognizerResult +from presidio_anonymizer import AnonymizerEngine + +from presidio_evaluator.data_generator import PresidioDataGenerator + +import pandas as pd + + +class PresidioPseudonymization(PresidioDataGenerator): + def __init__(self, map_to_presidio_entities: bool = True, **kwargs): + """ + Create pseudoanoymized data using Presidio by identifying real entities + and replacing them with fake ones. + :param kwargs: kwargs for PresidioDataGenerator + :param map_to_presidio_entities: + Whether to creating a mapping between Faker's providers and Presidio's entities + """ + + super().__init__(**kwargs) + if map_to_presidio_entities: + self.add_provider_alias("name", "PERSON") + self.add_provider_alias("ipv4", "IP_ADDRESS") + self.add_provider_alias("company", "ORGANIZATION") + self.add_provider_alias("country", "LOCATION") + self.add_provider_alias("credit_card_number", "CREDIT_CARD") + self.add_provider_alias("iban", "IBAN_CODE") + self.add_provider_alias("phone_number", "PHONE_NUMBER") + self.add_provider_alias("url", "DOMAIN_NAME") + self.add_provider_alias("ssn", "US_SSN") + self.add_provider_alias("email", "EMAIL_ADDRESS") + self.add_provider_alias("date_time", "DATE_TIME") + + def pseudonymize( + self, + original_text: str, + presidio_response: List[RecognizerResult], + count: int, + ): + """ + + :param original_text: str containing the original text + :param presidio_response: list of results from Presidio, to be used to know where entities are + :param count: number of perturbations to return + :return: List[str] with fake perturbations of original text + """ + + presidio_response = sorted(presidio_response, key=lambda resp: resp.start) + + anonymizer_engine = AnonymizerEngine() + anonymized_result = anonymizer_engine.anonymize( + text=original_text, analyzer_results=presidio_response + ) + + templated_text = anonymized_result.text + templated_text = templated_text.replace(">", "}}").replace("<", "{{") + fake_texts = [self.parse(templated_text, add_spans=False) for _ in range(count)] + return fake_texts diff --git a/presidio_evaluator/data_generator/raw_data/faker_templates.txt b/presidio_evaluator/data_generator/raw_data/faker_templates.txt deleted file mode 100644 index f17cc3e..0000000 --- a/presidio_evaluator/data_generator/raw_data/faker_templates.txt +++ /dev/null @@ -1,126 +0,0 @@ -I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible? -My credit card {{credit_card_number}} has been lost, Can I request you to block it. -Need to change billing date of my card {{credit_card_number}} -I want to update my primary and secondary address to same: {{address}} -In case of my child's account, we need to add {{person}} as guardian -Are there any charges applied for money transfer from {{iban}} to other bank accounts -Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}} -Not getting bank documents on my address. Can you please validate the following {{address}} -Please update billing address with {{address}} for this card: {{credit_card_number}} -Need to see last 10 transaction of card {{credit_card_number}} -I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? , My name is {{person}}. -My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity. -I have done an online order but didn't get any message on my registered {{phone_number}}. Could you please look into it ? -What is procedure to redeem points won on credit card {{credit_card_number}} transactions ? -My card {{credit_card_number}} expires soon � when will I get a new one? -How do I check my balance on my credit card? -Could I change the payment due date of my credit card? -How can I request a new credit card pin ? -Can I withdraw cash using my card {{credit_card_number}} at aTM center ? -How do I change the address linked to my credit card to {{address}}? -How do I open my credit card statement? -I'm originally from {{country}} -I will be travelling to {{country}} next week, so I need my passport to be ready by then -Who's coming to {{country}} with me? -{{country}} was super fun to visit! -Could you please email me the statement for last month , my credit card number is {{credit_card_number}}? -Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email_address}}? -How do I change my address to {{address}} for post mail? -My name appears incorrectly on credit card statement could you please correct it to {{title}} {{person}}? -card number {{credit_card_number}} is lost, can you please send a new one to {{address}} i am in {{city}} for a business trip -Please transfer all funds from my account to this hackers' {{email_address}} -I can't browse to your site, keep getting address {{ip_address}} blocked error -My religion does not allow speaking to bots, they are evil and hacked by the Devil -Excuse me, Sir bot, but I really don't like this tone -WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?! -Please have the manager call me at {{phone_number}} I'd like to join accounts with ms. {{first_name}} -Inject SELECT * FROM Users WHERE client_ip = ?%//!%20\|{{ip_address}}|%20/ -{{first_name}}, can I please speak to your boss? -May I request to have the statement sent to {{address}}? -Will my account stay active? It's under my partner's name {{person}} -What are my options? -Bot: Where would you like this to be sent to? User: {{address}} -Bot: What's the name on the account? User: {{person}} -I would like to stop receiving messages to {{phone_number}} -CAN I SPEAK TO A REAL PERSON?!?! -I would like to remove my kid {{first_name}} from the will. How do I do that? -The name in the account is not correct, please change it to {{person}} -Hello I moved, please update my new address is {{address}} -I need to add addresses, here they are: {{address}}, {{address}} -Please send my portfolio to this email {{email_address}} -Hello, this is {{title}} {{person}}. Who are you? -I want to add {{person}} as a beneficiary to my account -I want to cancel my card {{credit_card_number}} because I lost it -Please block card no {{credit_card_number}} -What is the limit for card {{credit_card_number}}? -Can someone call me on {{phone_number}}? I have some questions about opening an account. -My nam is {{first_name}} -I'm moving out of the country, so please cancel my subscription -My name is {{person}} but everyone calls me {{first_name}} -Please tell me your date of birth. It's {{birthday}} -You said your email is {{email_address}}. Is that correct? -I once lived in {{address}}. I now live in {{address}} -I'd like to order a taxi to {{address}} -Please charge my credit card. Number is {{credit_card_number}} -What's your email? {{email_address}} -What's your credit card? {{credit_card_number}} -What's your name? {{person}} -What's your last name? {{last_name}} -How can we reach you? You can call {{phone_number}} -I'd like it to be sent to {{address}} -Meet me at {{address}} -So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}} -Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}} -She was born on {{birthday}}. Her maiden name is {{last_name}} -Sometimes people call me {{first_name}} -Maybe it's under {{person}} -It's like that since {{birthday}} -Just posted a photo {{url}} -My website is {{url}} -My IBAN is {{iban}} -I've shared files with you {{url}} -I work for {{organization}} -{{person}} from {{organization}} is the keynote speaker -{{first_name}} is from {{organization}} -The address of {{organization}} is {{address}} -His social security number is {{us_ssn}} -Here's my SSN: {{us_ssn}} -{{first_name}} is a very sympathetic person. He's also a good listener -{{first_name}} is very reliable. You can always depend on him. -Why is {{first_name}} so impulsive? -{{person}} will be talking in the conference -have you heard {{person}} speak yet? -Have you been to a {{person}} concert before? -I'm so jealous! said {{first_name}} to {{first_name}} -The true gender of {{first_name}} has been under debate for years, but the riff and building energy is a rock masterpiece regardless. -For my take on Mr. {{last_name}}, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love) -Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop. -One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}! -Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers. -C'mon, sing it with me: "You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field..." -A tribute to {{person}} – sadly, she wasn't impressed. -When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}? -A great song made even greater by a mandolin coda (not by {{person}}). -{{person}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:"Tube Snake Boogie" by {{person}} – go figure) -From the film American graffiti (also features {{person}}. What's not to love? -You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14. -This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it. -The title refers to {{street}} Street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. "Battery is found in me" shows that these early shows on {{street}} Street were important to them. Battery is where "lunacy finds you" and you "smash through the boundaries." -Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: "We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing." -It may be too that {{last_name}} was influenced by an earlier song, "Carry Me Back To {{country}}," which was arranged and sung by {{person}} in 1847 (though {{last_name}}'s song was actually about a boat!). -The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted. -In {{country}}}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, "most are horrible". -"The big three" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. "Don't feed me planned obsolescence," says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s. -{{organization}} songwriter {{person}} employs corporate lingo in the first verse of his {{organization}} Resignation Letter -Mission Statement: This non-profit founded by radio executives "serves as an advocate for the value of music" and "supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid," according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works. -The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}} -Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace. -{{organization}} is the brainchild of our 3 founders: {{person}}, {{person}} and {{person}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea. -{{organization}} is an {{nationality}} multinational investment bank and financial services company -Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}} -During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry. -On 29 March 2017, the {{nationality}} government formally began the process of withdrawal by invoking Article 50 of the Treaty on European Union -{{first_name}} shouted at {{first_name}}: "What are you doing here?" -{{last_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965. -{{last_name}} began writing as a teenager, publishing her first story, "The Dimensions of a Shadow", in 1950 while studying English and journalism at the University of {{city}}. - diff --git a/presidio_evaluator/data_generator/raw_data/nationalities.csv b/presidio_evaluator/data_generator/raw_data/nationalities.csv index d5e91c3..0950d42 100644 --- a/presidio_evaluator/data_generator/raw_data/nationalities.csv +++ b/presidio_evaluator/data_generator/raw_data/nationalities.csv @@ -201,4 +201,4 @@ sunni,sunni,sunni,sunni,sunnis shia,shii,shii,shii,shiis israel,jewish,jewish,jewish,jews israel,jew,jew,jew,jews -kurdistan,kurd,kurd,kurd,kurds +kurdistan,kurd,kurd,kurd,kurds \ No newline at end of file diff --git a/presidio_evaluator/data_generator/raw_data/organizations.csv b/presidio_evaluator/data_generator/raw_data/organizations.csv index a1f6360..3ee0d45 100644 --- a/presidio_evaluator/data_generator/raw_data/organizations.csv +++ b/presidio_evaluator/data_generator/raw_data/organizations.csv @@ -1,3 +1,4 @@ +organization 3 Round Stones Inc 48 Factoring Inc 5Psolutions diff --git a/presidio_evaluator/data_generator/raw_data/templates.txt b/presidio_evaluator/data_generator/raw_data/templates.txt index 77d9729..e62bbee 100644 --- a/presidio_evaluator/data_generator/raw_data/templates.txt +++ b/presidio_evaluator/data_generator/raw_data/templates.txt @@ -1,126 +1,182 @@ -I want to increase limit on my card # [CREDIT_CARD] for certain duration of time. is it possible? -My credit card [CREDIT_CARD] has been lost, Can I request you to block it. -Need to change billing date of my card [CREDIT_CARD] -I want to update my primary and secondary address to same: [ADDRESS] -In case of my child's account, we need to add [PERSON] as guardian -Are there any charges applied for money transfer from [IBAN] to other bank accounts -Are there any charges applied to withdraw money from ATM with the card [CREDIT_CARD] -Not getting bank documents on my address. Can you please validate the following [ADDRESS] -Please update billing address with [ADDRESS] for this card: [CREDIT_CARD] -Need to see last 10 transaction of card [CREDIT_CARD] -I have lost my card [CREDIT_CARD]. Could you please block my credit card ASAP ? , My name is [PERSON]. -My card [CREDIT_CARD] is expiring this month. Please let me know process to it's extend validity. -I have done an online order but didn't get any message on my registered [PHONE_NUMBER]. Could you please look into it ? -What is procedure to redeem points won on credit card [CREDIT_CARD] transactions ? -My card [CREDIT_CARD] expires soon � when will I get a new one? +I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible? +My credit card {{credit_card_number}} has been lost, Can I request you to block it. +Need to change billing date of my card {{credit_card_number}} +I want to update my primary and secondary address to the same: {{address}} +In case of my child's account, we need to add {{person}} as guardian +Are there any charges applied for money transfer from {{iban}} to other bank accounts +Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}} +Not getting bank documents to my address. Can you please validate the following? {{address}} +Please update the billing address with {{address}} for this card: {{credit_card_number}} +Need to see last 10 transaction of card {{credit_card_number}} +I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}. +My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity. +I have done an online order but didn't get any message on my registered {{phone_number}}. Could you please look into it ? +What is procedure to redeem points won on credit card {{credit_card_number}} transactions ? +My card {{credit_card_number}} expires soon � when will I get a new one? How do I check my balance on my credit card? Could I change the payment due date of my credit card? How can I request a new credit card pin ? -Can I withdraw cash using my card [CREDIT_CARD] at aTM center ? -How do I change the address linked to my credit card to [ADDRESS]? +Can I withdraw cash using my card {{credit_card_number}} at aTM center ? +How do I change the address linked to my credit card to {{address}}? How do I open my credit card statement? -I'm originally from [COUNTRY] -I will be travelling to [COUNTRY] next week, so I need my passport to be ready by then -Who's coming to [COUNTRY] with me? -[COUNTRY] was super fun to visit! -Could you please email me the statement for last month , my credit card number is [CREDIT_CARD]? -Could you please send me the last billed amount for cc [CREDIT_CARD] on my e-mail [EMAIL_ADDRESS]? -How do I change my address to [ADDRESS] for post mail? -My name appears incorrectly on credit card statement could you please correct it to [TITLE] [PERSON]? -card number [CREDIT_CARD] is lost, can you please send a new one to [ADDRESS] i am in [CITY] for a business trip -Please transfer all funds from my account to this hackers' [EMAIL_ADDRESS] -I can't browse to your site, keep getting address [IP_ADDRESS] blocked error +I'm originally from {{country}} +I will be travelling to {{country}} next week, so I need my passport to be ready by then +Who's coming to {{country}} with me? +{{country}} was super fun to visit! +Could you please email me the statement for last month , my credit card number is {{credit_card_number}}? +Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}? +How do I change my address to {{address}} for post mail? +My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}? +My name appears incorrectly on credit card statement could you please correct it to {{prefix_female}} {{name_female}}? +card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip +Please transfer all funds from my account to this hackers' {{email}} +I can't browse to your site, keep getting address {{ip_address}} blocked error My religion does not allow speaking to bots, they are evil and hacked by the Devil Excuse me, Sir bot, but I really don't like this tone WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?! -Please have the manager call me at [PHONE_NUMBER] I'd like to join accounts with ms. [FIRST_NAME] -Inject SELECT * FROM Users WHERE client_ip = ?%//!%20\|[IP_ADDRESS]|%20/ -[FIRST_NAME], can I please speak to your boss? -May I request to have the statement sent to [ADDRESS]? -Will my account stay active? It's under my partner's name [PERSON] +Please have the manager call me at {{phone_number}} I'd like to join accounts with ms. {{first_name}} +Inject SELECT * FROM Users WHERE client_ip = ?%//!%20\|{{ip_address}}|%20/ +{{first_name}}, can I please speak to your boss? +May I request to have the statement sent to {{address}}? +Will my account stay active? It's under my partner's name {{person}} What are my options? -Bot: Where would you like this to be sent to? User: [ADDRESS] -Bot: What's the name on the account? User: [PERSON] -I would like to stop receiving messages to [PHONE_NUMBER] +Bot: Where would you like this to be sent to? User: {{address}} +Bot: What's the name on the account? User: {{person}} +I would like to stop receiving messages to {{phone_number}} CAN I SPEAK TO A REAL PERSON?!?! -I would like to remove my kid [FIRST_NAME] from the will. How do I do that? -The name in the account is not correct, please change it to [PERSON] -Hello I moved, please update my new address is [ADDRESS] -I need to add addresses, here they are: [ADDRESS], [ADDRESS] -Please send my portfolio to this email [EMAIL_ADDRESS] -Hello, this is [TITLE] [PERSON]. Who are you? -I want to add [PERSON] as a beneficiary to my account -I want to cancel my card [CREDIT_CARD] because I lost it -Please block card no [CREDIT_CARD] -What is the limit for card [CREDIT_CARD]? -Can someone call me on [PHONE_NUMBER]? I have some questions about opening an account. -My nam is [FIRST_NAME] +I'll meet you at {{address}} after the concert. +I would like to remove my kid {{first_name}} from the will. How do I do that? +The name in the account is not correct, please change it to {{person}} +Hello I moved, please update my new address is {{address}} +I need to add my addresses, here they are: {{address}}, and {{address}} +Please send my portfolio to this email {{email}} +Hello, this is {{prefix_male}} {{name_male}}. Who are you? +I want to add {{person}} as a beneficiary to my account +I want to cancel my card {{credit_card_number}} because I lost it +Please block card no {{credit_card_number}} +What is the limit for card {{credit_card_number}}? +Can someone call me on {{phone_number}}? I have some questions about opening an account. +My name is {{first_name}} I'm moving out of the country, so please cancel my subscription -My name is [PERSON] but everyone calls me [FIRST_NAME] -Please tell me your date of birth. It's [BIRTHDAY] -You said your email is [EMAIL_ADDRESS]. Is that correct? -I once lived in [ADDRESS]. I now live in [ADDRESS] -I'd like to order a taxi to [ADDRESS] -Please charge my credit card. Number is [CREDIT_CARD] -What's your email? [EMAIL_ADDRESS] -What's your credit card? [CREDIT_CARD] -What's your name? [PERSON] -What's your last name? [LAST_NAME] -How can we reach you? You can call [PHONE_NUMBER] -I'd like it to be sent to [ADDRESS] -Meet me at [ADDRESS] -So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in [ADDRESS] -Hi [FIRST_NAME], I'm contacting you about a problem I have with sending a wire transfer using this IBAN [IBAN] -She was born on [BIRTHDAY]. Her maiden name is [LAST_NAME] -Sometimes people call me [FIRST_NAME] -Maybe it's under [PERSON] -It's like that since [BIRTHDAY] -Just posted a photo [URL] -My website is [URL] -My IBAN is [IBAN] -I've shared files with you [URL] -I work for [ORGANIZATION] -[PERSON] from [ORGANIZATION] is the keynote speaker -[FIRST_NAME] is from [ORGANIZATION] -The address of [ORGANIZATION] is [ADDRESS] -His social security number is [US_SSN] -Here's my SSN: [US_SSN] -[FIRST_NAME] is a very sympathetic person. He's also a good listener -[FIRST_NAME] is very reliable. You can always depend on him. -Why is [FIRST_NAME] so impulsive? -[PERSON] will be talking in the conference -have you heard [PERSON] speak yet? -Have you been to a [PERSON] concert before? -I'm so jealous! said [FIRST_NAME] to [FIRST_NAME] -The true gender of [FIRST_NAME] has been under debate for years, but the riff and building energy is a rock masterpiece regardless. -For my take on Mr. [LAST_NAME], see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love) -Unlike the [LAST_NAME] novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop. -One of the most depressing songs on the list. He's injured from the waist down from [COUNTRY], but [FIRST_NAME] just has to get laid. Don't go to town, [FIRST_NAME]! -Is there a better crafted pop song on this list? [LAST_NAME] and [LAST_NAME] were precision engineers. -C'mon, sing it with me: "You picked a fine time to leave me [FIRST_NAME], four hungry children and a crop in the field..." -A tribute to [PERSON] – sadly, she wasn't impressed. -When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from [PERSON]'s Cautionary Tales. Is there a better example of unbridled creativity than early [LAST_NAME]? -A great song made even greater by a mandolin coda (not by [PERSON]). -[PERSON] listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:"Tube Snake Boogie" by [PERSON] – go figure) -From the film American graffiti (also features [PERSON]. What's not to love? -You can tell [FIRST_NAME] was a huge [PERSON] fan. Written when he was only 14. -This song by ex-Zombie [LAST_NAME] is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it. -The title refers to [STREET] Street in [CITY]. It was on this street that many of the clubs where Metallica first played were situated. "Battery is found in me" shows that these early shows on [STREET] Street were important to them. Battery is where "lunacy finds you" and you "smash through the boundaries." -Blink-182 pay tribute here to the [COUNTRY]. Producer [PERSON] explained to Fuse TV: "We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing." -It may be too that [LAST_NAME] was influenced by an earlier song, "Carry Me Back To [COUNTRY]," which was arranged and sung by [PERSON] in 1847 (though [LAST_NAME]'s song was actually about a boat!). -The [PERSON] version recorded for [ORGANIZATION] became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted. -In [COUNTRY]] they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter [PERSON] points out, "most are horrible". -"The big three" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city [CITY]: [ORGANIZATION], [ORGANIZATION] and [ORGANIZATION]. "Don't feed me planned obsolescence," says [PERSON] in an uncharacteristically political song, lamenting the demise of the unions in the 60s. -[ORGANIZATION] songwriter [PERSON] employs corporate lingo in the first verse of his [ORGANIZATION] Resignation Letter -Mission Statement: This non-profit founded by radio executives "serves as an advocate for the value of music" and "supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid," according to the [ORGANIZATION] website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works. -The [ORGANIZATION] Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern [COUNTRY] -Celebrating its 10th year in [CITY], [ORGANIZATION] is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace. -[ORGANIZATION] is the brainchild of our 3 founders: [PERSON], [PERSON] and [PERSON]. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea. -[ORGANIZATION] is an [NATIONALITY] multinational investment bank and financial services company -Zoolander is a 2001 American action-comedy film directed by [PERSON] and starring [LAST_NAME] -During the 1990s, [ORGANIZATION] invested heavily in new microprocessor designs fostering the rapid growth of the computer industry. -On 29 March 2017, the [NATIONALITY] government formally began the process of withdrawal by invoking Article 50 of the Treaty on European Union -[FIRST_NAME] shouted at [FIRST_NAME]: "What are you doing here?" -[LAST_NAME] spent a year at [ORGANIZATION] as the assistant to [PERSON], and the following year at [ORGANIZATION] in [CITY], which later became [ORGANIZATION] in 1965. -[LAST_NAME] began writing as a teenager, publishing her first story, "The Dimensions of a Shadow", in 1950 while studying English and journalism at the University of [CITY]. - +My name is {{person}} but everyone calls me {{first_name}} +Please tell me your date of birth. It's {{date_of_birth}} +You said your email is {{email}}. Is that correct? +I once lived in {{address}}. I now live in {{address}} +I'd like to call a taxi to {{address}}. Please call me when you're here. +Please charge my credit card. Number is {{credit_card_number}} +What's your email? {{email}} +What's your credit card? {{credit_card_number}} +What's your name? {{person}} +What's your last name? {{last_name}} +How can we reach you? You can call {{phone_number}} +I'd like it to be sent to {{address}} +Meet me at {{address}} +The restaurant is located at {{address}}. It serves great indian food. +So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}} +Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}} +She was born on {{date_of_birth}}. Her maiden name is {{last_name}} +Sometimes people call me {{first_name}} +Maybe it's under {{person}} +It's like that since {{date_of_birth}} +Just posted a photo {{url}} +My website is {{url}} +My IBAN is {{iban}} +I've shared files with you {{url}} +I work for {{organization}} +{{person}} from {{organization}} is the keynote speaker +{{first_name}} is from {{organization}} +The address of {{organization}} is {{address}} +His social security number is {{ssn}} +Here's my SSN: {{ssn}} +{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners. +{{first_name}} is very reliable. You can always depend on him. +Why is {{first_name}} so impulsive? +{{person}} will be talking in the conference +have you heard {{person}} speak yet? +Have you been to a {{person}} concert before? +I'm so jealous! said {{first_name}} to {{first_name}} +The true gender of {{first_name}} has been under debate for years, but the riff and building energy is a rock masterpiece regardless. +For my take on {{prefix_female}}. {{last_name_female}}, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love) +Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop. +One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}! +Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers. +C'mon, sing it with me: "You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field..." +A tribute to {{person}} – sadly, she wasn't impressed. +When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}? +A great song made even greater by a mandolin coda (not by {{person}}). +{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:"Tube Snake Boogie" by {{person}} – go figure) +From the film American graffiti (also features {{person}}. What's not to love? +You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14. +This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it. +The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. "Battery is found in me" shows that these early shows on {{street_name}} Street were important to them. Battery is where "lunacy finds you" and you "smash through the boundaries." +Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: "We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing." +It may be too that {{last_name}} was influenced by an earlier song, "Carry Me Back To {{country}}," which was arranged and sung by {{person}} in 1847 (though {{last_name}}'s song was actually about a boat!). +The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted. +In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, "most are horrible". +"The big three" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. "Don't feed me planned obsolescence," says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s. +{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter +Mission Statement: This non-profit founded by radio executives "serves as an advocate for the value of music" and "supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid," according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works. +The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}} +Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace. +{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea. +{{organization}} is an {{nationality}} multinational investment bank and financial services company +Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}} +During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry. +On 29 March 2017, the {{nationality}} government formally began the process of withdrawal by invoking Article 50 of the Treaty on European Union +{{first_name}} shouted at {{first_name}}: "What are you doing here?" +{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965. +{{last_name}} began writing as a teenager, publishing her first story, "The Dimensions of a Shadow", in 1950 while studying English and journalism at the University of {{city}}. +My driver's license number is {{us_driver_license}} +{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}} +{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}} +{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}} +{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}} +The corner of {street_name} and {street_name} +The restaurant is at {{building_number}} {{street_name}} +My friend lives in {{city}} +{{first_name}} lives on {{street_name}} street. +{{name}} lives at {{building_number}} {{street_name}}, {{city}} +{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}} +{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}} +What is your address? it is {{address}} +We moved here from {{city}} +We moved here from {{country}} +{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\,{{phone_number}}-Fax +{{person}}\n{{job}}\n{{company}}\n{{address}} +Our offices are located at {{address}} +Please return to {{address}} in case of an issue. +{{organization}}\n\n{{address}} +The {{organization}} office is at {{address}} +{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile\n +{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}\n +Billing address: {{name}}\n {{building_number}} {{street_name}} {{secondary_address}}\n {{city}}\n {{state_abbr}}\n {{zipcode}}\n +As promised, here's {{first_name}}'s address:\n\n{{address}} +>{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}} +??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}} +> \n> {{name}}\n> {{organization}}\n> {{person}}\n> {{building_number}} {{street_name}}\n> {{secondary_address}}\n> {{city}}\n> {{country}} {{postcode}} +Pedestrians must enter on {{street_name}} St. the first three months +When: {{date_time}}\nWhere: {{city}} Country Club. +We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}} +They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}. +She moved here from {{country}} +My zip code is {{zipcode}} +ZIP: {{zipcode}} +The bus station is on {{street_name}} +They're not answering at {{phone_number}} +God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone. +3... 2... 1... liftoff! +My great great grandfather was called {{name_male}}, and my great great grandmother was called {{name_female}} +She named him {{first_name_male}} +Name: {{name}}\nAddress: {{address}} +Follow up with {{name}} in 2 months. +{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}. +Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}} +{{first_name}}: "Who are you?"\n{{first_name_female}}:"I'm {{first_name}}'s daughter". +At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter. +It was a done thing between him and {{first_name}}'s kid; and everybody thought so. +Capitalized words like Wisdom and Discipline are often mistaken with names. +The letter arrived at {{address}} last night. +The Princess Royal arrived at {{city}} this morning from {{country}}. +I'm in {{city}}, at the conference +{{name}}, the {{job}}, said: "I'm glad to hear that this has been withdrawn – quite why they thought this would go down well is beyond me." +"I'm glad to hear that {{country}} is moving in that direction," says {{last_name}}. diff --git a/presidio_evaluator/data_generator/raw_data/us_driver_licenses.csv b/presidio_evaluator/data_generator/raw_data/us_driver_licenses.csv index cac0b4c..bf160ff 100644 --- a/presidio_evaluator/data_generator/raw_data/us_driver_licenses.csv +++ b/presidio_evaluator/data_generator/raw_data/us_driver_licenses.csv @@ -1,3 +1,4 @@ +us_driver_license 6940579 S530-460-99-424-0 2270-66-1551 @@ -12,4 +13,55 @@ S530-460-99-424-0 A230-279-135-866 A312-032-153-620 FRANCRF705BA -P362-738-729-232 \ No newline at end of file +P362-738-729-232 +9741673 +9100575 +U94783965 +341308170 +J1003878 +449451270 +281211981 +1662897 +6348590 +M943688896309 +915182692 +133197326 +LH329609T +B20093214252 +5761491745 +366211894 +578988637 +385441539 +A125325867 +9385623 +F162823540116 +984540232 +D377768453473 +Y829244176735 +535284465 +964844313 +515606188 +A56319335 +284831437936 +92RPI23272 +U62928788557186 +220053935 +950735093 +982959903687 +749899989 +QM2899809 +755600751 +3560604 +89621179 +2900880 +989832883 +925014173 +103089471 +50473044 +951448502 +758840603 +755947796 +JJHCJX451MC +5130634 +X1977104127784 +527525559 diff --git a/presidio_evaluator/data_generator/us_driver_license_generator.py b/presidio_evaluator/data_generator/us_driver_license_generator.py deleted file mode 100644 index df49be9..0000000 --- a/presidio_evaluator/data_generator/us_driver_license_generator.py +++ /dev/null @@ -1,16 +0,0 @@ -import random -import os -from pathlib import Path - - -class UsDriverLicenseGenerator: - def __init__(self, company_name_file_path="raw_data/us_driver_licenses.csv"): - self.licenses = [] - dir_path = os.path.dirname(os.path.realpath(__file__)) - file_path = Path(dir_path, company_name_file_path) - - with open(str(file_path)) as file: - self.licenses = file.read().splitlines() - - def get_driver_license_number(self): - return random.choice(self.licenses) diff --git a/presidio_evaluator/data_objects.py b/presidio_evaluator/data_objects.py index 76139c4..60aca26 100644 --- a/presidio_evaluator/data_objects.py +++ b/presidio_evaluator/data_objects.py @@ -1,12 +1,19 @@ -from typing import List, Optional +import json +from pathlib import Path +from typing import List, Optional, Union, Dict, Any, Tuple +import pandas as pd import spacy -import srsly -from spacy.tokens import Token -from spacy.training import docs_to_json, iob_to_biluo +from spacy import Language +from spacy.tokens import Token, Doc, DocBin +from spacy.training import iob_to_biluo from tqdm import tqdm from presidio_evaluator import span_to_tag, tokenize +from presidio_evaluator.data_generator.faker_extensions import ( + FakerSpansResult, + FakerSpan, +) SPACY_PRESIDIO_ENTITIES = { "ORG": "ORGANIZATION", @@ -50,7 +57,7 @@ def __init__(self, entity_type, entity_value, start_position, end_position): def intersect(self, other, ignore_entity_type: bool): """ Checks if self intersects with a different Span - :return: If interesecting, returns the number of + :return: If intersecting, returns the number of intersecting characters. If not, returns 0 """ @@ -71,6 +78,15 @@ def intersect(self, other, ignore_entity_type: bool): self.start_position, other.start_position ) + @classmethod + def from_faker_span(cls, faker_span: FakerSpan) -> "Span": + return cls( + entity_type=faker_span.type, + entity_value=faker_span.value, + start_position=faker_span.start, + end_position=faker_span.end, + ) + def __repr__(self): return ( f"Type: {self.entity_type}, " @@ -106,107 +122,15 @@ def from_json(cls, data): return cls(**data) -class SimpleSpacyExtensions: - def __init__(self, **kwargs): - """ - Serialization of Spacy Token extensions. - see https://spacy.io/api/token#set_extension - :param kwargs: dictionary of spacy extensions and their values - """ - self.__dict__.update(kwargs) - - def to_dict(self): - return self.__dict__ - - -class SimpleToken: - """ - A class mimicking the Spacy Token class, for serialization purposes - """ - - def __init__( - self, - text, - idx, - tag_=None, - pos_=None, - dep_=None, - lemma_=None, - spacy_extensions: SimpleSpacyExtensions = None, - **kwargs, - ): - self.text = text - self.idx = idx - self.tag_ = tag_ - self.pos_ = pos_ - self.dep_ = dep_ - self.lemma_ = lemma_ - - # serialization for Spacy extensions: - if spacy_extensions is None: - self._ = SimpleSpacyExtensions() - else: - self._ = spacy_extensions - self.params = kwargs - - @classmethod - def from_spacy_token(cls, token): - - if isinstance(token, SimpleToken): - return token - - elif isinstance(token, Token): - - if token._ and token._._extensions: - extensions = list(token._.token_extensions.keys()) - extension_values = {} - for extension in extensions: - extension_values[extension] = token._.__getattr__(extension) - spacy_extensions = SimpleSpacyExtensions(**extension_values) - else: - spacy_extensions = None - - return cls( - text=token.text, - idx=token.idx, - tag_=token.tag_, - pos_=token.pos_, - dep_=token.dep_, - lemma_=token.lemma_, - spacy_extensions=spacy_extensions, - ) - - def to_dict(self): - return { - "text": self.text, - "idx": self.idx, - "tag_": self.tag_, - "pos_": self.pos_, - "dep_": self.dep_, - "lemma_": self.lemma_, - "_": self._.to_dict(), - } - - def __repr__(self): - return self.text - - @classmethod - def from_json(cls, data): - - if "_" in data: - data["spacy_extensions"] = SimpleSpacyExtensions(**data["_"]) - return cls(**data) - - class InputSample(object): def __init__( self, full_text: str, spans: Optional[List[Span]] = None, masked: Optional[str] = None, - tokens: Optional[List[SimpleToken]] = None, + tokens: Optional[Doc] = None, tags: Optional[List[str]] = None, - create_tags_from_span=True, + create_tags_from_span=False, scheme="IO", metadata=None, template_id=None, @@ -216,11 +140,11 @@ def __init__( presidio-evaluator framework. :param full_text: The raw text of this sample - :param masked: Masked version of the raw text (desired output) + :param masked: Masked/Templated version of the raw text :param spans: List of spans for entities :param create_tags_from_span: True if tags (tokens+taks) should be added :param scheme: IO, BIO/IOB or BILOU. Only applicable if span_to_tag=True - :param tokens: list of items of type SimpleToken + :param tokens: spaCy Doc object :param tags: list of strings representing the label for each token, given the scheme :param metadata: A dictionary of additional metadata on the sample, @@ -238,7 +162,7 @@ def __init__( # generated samples have a template from which they were generated if not template_id and self.metadata: - self.template_id = self.metadata.get("Template#") + self.template_id = self.metadata.get("template_id") else: self.template_id = template_id @@ -250,6 +174,35 @@ def __init__( self.tokens = tokens self.tags = tags + @classmethod + def from_faker_spans_result( + cls, + faker_spans_result: FakerSpansResult, + scheme: str = "BILUO", + create_tags_from_span: bool = True, + **kwargs, + ) -> "InputSample": + """ + Translate the FakerSpansResult object to InputSample for backward compatibility + :param faker_spans_result: A FakerSpansResult object + :param create_tags_from_span: True if text should be tokenized according to spans + :param scheme: Annotation scheme for tokens (BILUO, BIO, IO). Only relevant if create_tags_from_span=True + :param kwargs: Additional kwargs for InputSample creation + :return: InputSample + """ + spans = [ + Span.from_faker_span(new_span) for new_span in faker_spans_result.spans + ] + return cls( + full_text=faker_spans_result.fake, + spans=spans, + masked=faker_spans_result.template, + create_tags_from_span=create_tags_from_span, + scheme=scheme, + template_id=faker_spans_result.template_id, + **kwargs, + ) + def __repr__(self): return ( f"Full text: {self.full_text}\n" @@ -264,10 +217,6 @@ def to_dict(self): "full_text": self.full_text, "masked": self.masked, "spans": [span.__dict__ for span in self.spans], - "tokens": [ - SimpleToken.from_spacy_token(token).to_dict() for token in self.tokens - ], - "tags": self.tags, "template_id": self.template_id, "metadata": self.metadata, } @@ -276,9 +225,7 @@ def to_dict(self): def from_json(cls, data): if "spans" in data: data["spans"] = [Span.from_json(span) for span in data["spans"]] - if "tokens" in data: - data["tokens"] = [SimpleToken.from_json(val) for val in data["tokens"]] - return cls(**data, create_tags_from_span=False) + return cls(**data, create_tags_from_span=True) def get_tags(self, scheme="IOB"): start_indices = [span.start_position for span in self.spans] @@ -297,7 +244,13 @@ def get_tags(self, scheme="IOB"): return tokens, labels - def to_conll(self, translate_tags): + def to_conll(self, translate_tags: bool) -> List[Dict[str, Any]]: + """ + Turns a list of InputSample objects to a dictionary + containing text, pos, tag, template_id and label. + :param translate_tags: Whether to translate tags using the PRESIDIO_SPACY_ENTITIES dictionary + :return: Dict + """ conll = [] for i, token in enumerate(self.tokens): @@ -312,9 +265,7 @@ def to_conll(self, translate_tags): "text": token.text, "pos": token.pos_, "tag": token.tag_, - "Template#": self.metadata["Template#"], - "gender": self.metadata["Gender"], - "country": self.metadata["Country"], + "template_id": self.template_id, "label": label, }, ) @@ -322,15 +273,30 @@ def to_conll(self, translate_tags): return conll def get_template_id(self): - return self.metadata["Template#"] + if not self.template_id: + return self.metadata.get("template_id") @staticmethod - def create_conll_dataset(dataset, translate_tags=True, to_bio=True): - import pandas as pd + def create_conll_dataset( + dataset: Union[List["InputSample"], List[FakerSpansResult]], + translate_tags=False, + to_bio=True, + ) -> pd.DataFrame: + + if len(dataset) <= 1: + raise ValueError("Dataset should contain multiple records") + + if isinstance(dataset[0], FakerSpansResult): + dataset = [ + InputSample.from_faker_spans_result( + record, create_tags_from_span=True, scheme="BILUO" + ) + for record in tqdm(dataset, desc="Translating spans into tokens") + ] conlls = [] i = 0 - for sample in dataset: + for sample in tqdm(dataset): if to_bio: sample.bilou_to_bio() conll = sample.to_conll(translate_tags=translate_tags) @@ -341,7 +307,16 @@ def create_conll_dataset(dataset, translate_tags=True, to_bio=True): return pd.DataFrame(conlls) - def to_spacy(self, entities=None, translate_tags=True): + def to_spacy( + self, entities=None, translate_tags=True + ) -> Tuple[str, Dict[str, List]]: + """ + Translates an input sample into a format which can be consumed by spaCy during training. + :param entities: Specific entities to focus on. + :param translate_tags: Whether to translate the existing tags into spaCy tags (PERSON, LOC, GPE, ORG) + :return: text and a dictionary containing a list of entities, e.g. + "Bob is my name", {"entities": [(0, 3, "PERSON")]} + """ entities = [ (span.start_position, span.end_position, span.entity_type) for span in self.spans @@ -359,16 +334,16 @@ def to_spacy(self, entities=None, translate_tags=True): return self.full_text, {"entities": new_entities} @classmethod - def from_spacy_doc(cls, doc, map_spacy_entities_to_presidio=True, scheme="BILUO"): - if scheme not in ("BILUO","BILOU","BIO","IOB"): - raise ValueError("scheme should be one of \"BILUO\",\"BILOU\",\"BIO\",\"IOB\"") + def from_spacy_doc( + cls, doc: Doc, translate_tags: bool = True, scheme: str = "BILUO" + ) -> "InputSample": + if scheme not in ("BILUO", "BILOU", "BIO", "IOB"): + raise ValueError('scheme should be one of "BILUO","BILOU","BIO","IOB"') spans = [] for ent in doc.ents: entity_type = ( - cls.rename_from_spacy_tags(ent.label_) - if map_spacy_entities_to_presidio - else ent.label_ + cls.rename_from_spacy_tag(ent.label_) if translate_tags else ent.label_ ) span = Span( entity_type=entity_type, @@ -378,7 +353,10 @@ def from_spacy_doc(cls, doc, map_spacy_entities_to_presidio=True, scheme="BILUO" ) spans.append(span) - tags = [f"{token.ent_iob_}-{token.ent_type_}" if token.ent_iob_ != "O" else "O" for token in doc] + tags = [ + f"{token.ent_iob_}-{token.ent_type_}" if token.ent_iob_ != "O" else "O" + for token in doc + ] if scheme in ("BILUO", "BILOU"): tags = iob_to_biluo(tags) @@ -389,24 +367,94 @@ def from_spacy_doc(cls, doc, map_spacy_entities_to_presidio=True, scheme="BILUO" tokens=doc, tags=tags, create_tags_from_span=False, - scheme=scheme + scheme=scheme, ) @staticmethod def create_spacy_dataset( - dataset, entities=None, sort_by_template_id=False, translate_tags=True - ): + dataset: List["InputSample"], + output_path: Optional[str] = "../data/dataset.spacy", + entities: List[str] = None, + sort_by_template_id: bool = False, + translate_tags: bool = True, + spacy_pipeline: Optional[Language] = None, + alignment_mode:str = "expand", + ) -> List[Tuple[str, Dict]]: + """ + Creates a dataset which can be used to train spaCy models. + If output_path is provided, it also saves the dataset in a spacy format. + See https://spacy.io/usage/training#training-data + + :param dataset: List[InputSample] to create the dataset from + :param output_path: Location for the created spacy dataset + :param entities: List of entities to use + :param sort_by_template_id: Whether to sort by template id (assuming the data is generated using templates) + :param translate_tags: Whether to translate tags to spacy tags (PERSON, LOC, GPE, ORG) + :param spacy_pipeline: The spaCy pipeline to use when creating the spaCy dataset. Default is en_core_web_sm + :param alignment_mode: See `Doc.char_span` + :return: a list of input samples translated to the spacy annotation structure + [("Bob is my name, {"entities": [(0, 3, "PERSON")]})] + """ + def template_sort(x): - return x.metadata["Template#"] + return x.metadata["template_id"] if sort_by_template_id: dataset.sort(key=template_sort) - return [ + if not spacy_pipeline: + spacy_pipeline = spacy.load("en_core_web_sm") + + spacy_dataset = [ sample.to_spacy(entities=entities, translate_tags=translate_tags) for sample in dataset ] + # Remove 'O' spans (if certain entities were ignored + if translate_tags: + for sample in spacy_dataset: + if sample[1]["entities"]: + new_entities = [ + span for span in sample[1]["entities"] if span[2] != "O" + ] + sample[1]["entities"] = new_entities + + if output_path: + db = DocBin() + for text, annotations in spacy_dataset: + doc = spacy_pipeline(text) + ents = [] + for start, end, label in annotations["entities"]: + if start >= end: + print(f"Span has zero or negative size, skipping. {(start, end, label)} in text={text}") + continue + if label == "O" or not label: + print("Skipping missing or non-entity ('O') spans") + continue + span = doc.char_span(start, end, label=label, alignment_mode=alignment_mode) + if not span: + print(f"Skipping illegal span {(start, end, label)}, text={text[start:end]}, full text={text}") + continue + ents.append(span) + doc.ents = ents + db.add(doc) + db.to_disk(output_path) + + return spacy_dataset + + @staticmethod + def to_json(dataset: List["InputSample"], output_file: Union[str, Path]): + """ + Save the InputSample dataset to json. + :param dataset: list of InputSample objects + :param output_file: path to file + """ + + examples_json = [example.to_dict() for example in dataset] + + with open("{}".format(output_file), "w+", encoding="utf-8") as f: + json.dump(examples_json, f, ensure_ascii=False, indent=4) + def to_spacy_json(self, entities=None, translate_tags=True): token_dicts = [] for i, token in enumerate(self.tokens): @@ -452,7 +500,9 @@ def create_spacy_json( dataset, entities=None, sort_by_template_id=False, translate_tags=True ): def template_sort(x): - return x.metadata["Template#"] + if hasattr(x, "template_id"): + return x.template_id + return x.metadata["template_id"] if sort_by_template_id: dataset.sort(key=template_sort) @@ -467,22 +517,7 @@ def template_sort(x): return json_str @staticmethod - def translate_tags(tags, dictionary, ignore_unknown): - """ - Translates entity types from one set to another - :param tags: list of entities to translate, e.g. ["LOCATION","O","PERSON"] - :param dictionary: Dictionary of old tags to new tags - :param ignore_unknown: Whether to put "O" when word not in dictionary or keep old entity type - :return: list of translated entities - """ - new_tags = [] - for tag in tags: - new_tags.append(InputSample.translate_tag(tag, dictionary, ignore_unknown)) - - return new_tags - - @staticmethod - def translate_tag(tag, dictionary, ignore_unknown): + def translate_tag(tag: str, dictionary: Dict[str, str], ignore_unknown: bool): has_prefix = len(tag) > 2 and tag[1] == "-" no_prefix = tag[2:] if has_prefix else tag if no_prefix in dictionary.keys(): @@ -510,22 +545,17 @@ def bilou_to_bio(self): self.tags = new_tags @staticmethod - def rename_from_spacy_tags(spacy_tags, ignore_unknown=False): - return InputSample.translate_tags( - spacy_tags, SPACY_PRESIDIO_ENTITIES, ignore_unknown=ignore_unknown + def rename_from_spacy_tag(spacy_tag, ignore_unknown=False): + return InputSample.translate_tag( + spacy_tag, SPACY_PRESIDIO_ENTITIES, ignore_unknown=ignore_unknown ) @staticmethod - def rename_to_spacy_tags(tags, ignore_unknown=True): - return InputSample.translate_tags( - tags, PRESIDIO_SPACY_ENTITIES, ignore_unknown=ignore_unknown + def rename_to_spacy_tags(tag, ignore_unknown=True): + return InputSample.translate_tag( + tag, PRESIDIO_SPACY_ENTITIES, ignore_unknown=ignore_unknown ) - @staticmethod - def write_spacy_json_from_docs(dataset, filename="spacy_output.json"): - docs = [sample.to_spacy_doc() for sample in dataset] - srsly.write_json(filename, [spacy.training.docs_to_json(docs)]) - def to_flair(self): for token, i in enumerate(self.tokens): return f"{token} {token.pos_} {self.tags[i]}" @@ -533,9 +563,10 @@ def to_flair(self): def translate_input_sample_tags(self, dictionary=None, ignore_unknown=True): if dictionary is None: dictionary = PRESIDIO_SPACY_ENTITIES - self.tags = InputSample.translate_tags( - self.tags, dictionary, ignore_unknown=ignore_unknown - ) + self.tags = [ + InputSample.translate_tag(tag, dictionary, ignore_unknown=ignore_unknown) + for tag in self.tags + ] for span in self.spans: if span.entity_value in PRESIDIO_SPACY_ENTITIES: span.entity_value = PRESIDIO_SPACY_ENTITIES[span.entity_value] @@ -549,3 +580,25 @@ def create_flair_dataset(dataset): flair_samples.append(sample.to_flair()) return flair_samples + + @staticmethod + def read_dataset_json( + filepath: Union[Path, str] = None, length: Optional[int] = None + ) -> List["InputSample"]: + """ + Reads an existing dataset, stored in json into a list of InputSample objects + :param filepath: Path to json file + :param length: Number of records to return (would return 0-length) + :return: List[InputSample] + """ + with open(filepath, "r", encoding="utf-8") as f: + dataset = json.load(f) + + if length: + dataset = dataset[:length] + + input_samples = [ + InputSample.from_json(row) for row in tqdm(dataset, desc="tokenizing input") + ] + + return input_samples diff --git a/presidio_evaluator/dataset_formatters/conll_formatter.py b/presidio_evaluator/dataset_formatters/conll_formatter.py index b45564c..d8cde01 100644 --- a/presidio_evaluator/dataset_formatters/conll_formatter.py +++ b/presidio_evaluator/dataset_formatters/conll_formatter.py @@ -62,7 +62,9 @@ def to_input_samples(self, fold: Optional[str] = None) -> List[InputSample]: input_samples.append(InputSample.from_spacy_doc(doc=doc)) if not files_found: - raise FileNotFoundError(f"No files found for pattern {self.glob_pattern} and fold {fold}") + raise FileNotFoundError( + f"No files found for pattern {self.glob_pattern} and fold {fold}" + ) return input_samples diff --git a/presidio_evaluator/dataset_formatters/i2b2_formatter.py b/presidio_evaluator/dataset_formatters/i2b2_formatter.py index 4d3c622..eed9080 100644 --- a/presidio_evaluator/dataset_formatters/i2b2_formatter.py +++ b/presidio_evaluator/dataset_formatters/i2b2_formatter.py @@ -84,7 +84,7 @@ def dataset_to_json(input_path, output_path): json.dump(json_dataset, f, ensure_ascii=False, indent=4) @staticmethod - def _span_and_text_are_identical(span:Span, text:str) -> bool: + def _span_and_text_are_identical(span: Span, text: str) -> bool: """ There are mismatches between annotations and text. @@ -92,20 +92,23 @@ def _span_and_text_are_identical(span:Span, text:str) -> bool: there is a need to ignore cases where the annotations are different due to whitespaces, newline or other cases. """ + + # fmt: off return span.entity_value != text[ - span.start_position : span.end_position]. \ - replace("Michael \n\nOgrady", "Michael Ogrady").\ - replace("Yehuda \n\nLanders", "Yehuda Landers").\ - replace("February\n\n2086", "February 2086").\ - replace("31,\n\n", "31, ").\ - replace("pa\nPic", "paPic").\ - replace("est\nBra", "estBra").\ - replace("er \n30", "er 30").\ - replace("pr\n29", "pr29").\ - replace(" \n ", " ").\ - replace("\n\n", "").\ - replace("\n", " ").\ - replace("&", "and") + span.start_position : span.end_position + ].replace("Michael \n\nOgrady", "Michael Ogrady")\ + .replace("Yehuda \n\nLanders", "Yehuda Landers")\ + .replace("February\n\n2086", "February 2086")\ + .replace("31,\n\n", "31, ")\ + .replace("pa\nPic", "paPic")\ + .replace("est\nBra", "estBra")\ + .replace("er \n30", "er 30")\ + .replace("pr\n29", "pr29")\ + .replace(" \n ", " ")\ + .replace("\n\n", "")\ + .replace("\n", " ")\ + .replace("&", "and") + # fmt: on if __name__ == "__main__": diff --git a/presidio_evaluator/evaluation/evaluation_result.py b/presidio_evaluator/evaluation/evaluation_result.py index 21b464e..e2ccedf 100644 --- a/presidio_evaluator/evaluation/evaluation_result.py +++ b/presidio_evaluator/evaluation/evaluation_result.py @@ -27,6 +27,7 @@ def __init__( self.pii_f = None self.entity_recall_dict = None self.entity_precision_dict = None + self.n = None def print(self): recall_dict = dict(sorted(self.entity_recall_dict.items())) @@ -38,12 +39,17 @@ def print(self): entities = recall_dict.keys() recall = recall_dict.values() precision = precision_dict.values() - - row_format = "{:>30}{:>30.2%}{:>30.2%}" - header_format = "{:>30}" * 3 - print(header_format.format(*("Entity", "Precision", "Recall"))) - for entity, precision, recall in zip(entities, precision, recall): - print(row_format.format(entity, precision, recall)) + n = self.n.values() + + row_format = "{:>30}{:>30.2%}{:>30.2%}{:>30}" + header_format = "{:>30}" * 4 + print( + header_format.format( + *("Entity", "Precision", "Recall", "Number of samples") + ) + ) + for entity, precision, recall, n in zip(entities, precision, recall, n): + print(row_format.format(entity, precision, recall, n)) print("PII F measure: {}".format(self.pii_f)) diff --git a/presidio_evaluator/evaluation/evaluator.py b/presidio_evaluator/evaluation/evaluator.py index 87c6f99..afe5711 100644 --- a/presidio_evaluator/evaluation/evaluator.py +++ b/presidio_evaluator/evaluation/evaluator.py @@ -152,10 +152,8 @@ def evaluate_all(self, dataset: List[InputSample]) -> List[EvaluationResult]: @staticmethod def align_entity_types( input_samples: List[InputSample], - entities_mapping: Dict[ - str, str - ] = None, - allow_missing_mappings: bool = False + entities_mapping: Dict[str, str] = None, + allow_missing_mappings: bool = False, ) -> List[InputSample]: """ Change input samples to conform with Presidio's entities @@ -180,7 +178,9 @@ def align_entity_types( new_spans.append(span) else: if not allow_missing_mappings: - raise ValueError(f"Key {span.entity_type} cannot be found in the provided entities_mapping") + raise ValueError( + f"Key {span.entity_type} cannot be found in the provided entities_mapping" + ) input_sample.spans = new_spans # Update tags in case this sample has relevant entities for evaluation @@ -212,7 +212,7 @@ def calculate_score( beta: float = 2.5, ) -> EvaluationResult: """ - Returns the pii_precision, pii_recall and f_measure either for each entity + Returns the pii_precision, pii_recall, f_measure either and number of records for each entity or for all entities (ignore_entity_type = True) :param evaluation_results: List of EvaluationResult :param entities: List of entities to calculate score to. Default is None: all entities @@ -227,6 +227,7 @@ def calculate_score( # compute pii_recall per entity entity_recall = {} entity_precision = {} + n = {} if not entities: entities = list(set([x[0] for x in all_results.keys() if x[0] != "O"])) @@ -234,6 +235,7 @@ def calculate_score( # all annotation of given type annotated = sum([all_results[x] for x in all_results if x[0] == entity]) predicted = sum([all_results[x] for x in all_results if x[1] == entity]) + n[entity] = annotated tp = all_results[(entity, entity)] if annotated > 0: @@ -291,6 +293,7 @@ def calculate_score( evaluation_result.entity_recall_dict = entity_recall evaluation_result.entity_precision_dict = entity_precision evaluation_result.pii_f = pii_f_beta + evaluation_result.n = n return evaluation_result diff --git a/presidio_evaluator/evaluation/model_error.py b/presidio_evaluator/evaluation/model_error.py index 7b18bff..639d216 100644 --- a/presidio_evaluator/evaluation/model_error.py +++ b/presidio_evaluator/evaluation/model_error.py @@ -1,8 +1,7 @@ from typing import Dict, List -from presidio_evaluator.data_objects import SimpleToken - import pandas as pd +from spacy.tokens import Token class ModelError: @@ -11,7 +10,7 @@ def __init__( error_type: str, annotation: str, prediction: str, - token: SimpleToken, + token: Token, full_text: str, metadata: Dict, ): diff --git a/presidio_evaluator/evaluation/scorers.py b/presidio_evaluator/evaluation/scorers.py index 7e5c506..eba525d 100644 --- a/presidio_evaluator/evaluation/scorers.py +++ b/presidio_evaluator/evaluation/scorers.py @@ -6,7 +6,6 @@ from presidio_analyzer.nlp_engine import SpacyNlpEngine from presidio_evaluator import InputSample -from presidio_evaluator.data_generator import read_synth_dataset from presidio_evaluator.evaluation import EvaluationResult, Evaluator from presidio_evaluator.models import ( PresidioRecognizerWrapper, @@ -88,7 +87,7 @@ def score_presidio_recognizer( if not input_samples: print("Reading dataset") - input_samples = read_synth_dataset("../../data/synth_dataset.txt") + input_samples = InputSample.read_dataset_json("../../data/synth_dataset.txt") else: input_samples = list(input_samples) @@ -122,7 +121,7 @@ def score_presidio_analyzer( """""" if not input_samples: print("Reading dataset") - input_samples = read_synth_dataset("../../data/synth_dataset.txt") + input_samples = InputSample.read_dataset_json("../../data/synth_dataset.txt") else: input_samples = list(input_samples) diff --git a/presidio_evaluator/models/__init__.py b/presidio_evaluator/models/__init__.py index 7624952..408bd35 100644 --- a/presidio_evaluator/models/__init__.py +++ b/presidio_evaluator/models/__init__.py @@ -5,6 +5,7 @@ from .spacy_model import SpacyModel from .flair_model import FlairModel from .flair_train import FlairTrainer + __all__ = [ "BaseModel", "CRFModel", @@ -12,5 +13,5 @@ "PresidioAnalyzerWrapper", "SpacyModel", "FlairModel", - "FlairTrainer" + "FlairTrainer", ] diff --git a/presidio_evaluator/models/flair_model.py b/presidio_evaluator/models/flair_model.py index 2372fe4..bc36441 100644 --- a/presidio_evaluator/models/flair_model.py +++ b/presidio_evaluator/models/flair_model.py @@ -41,7 +41,7 @@ def __init__( else: self.model = model - self.spacy_tokenizer = SpacyTokenizer(model=spacy.load("en_core_web_lg")) + self.spacy_tokenizer = SpacyTokenizer(model=spacy.load("en_core_web_sm")) def predict(self, sample: InputSample) -> List[str]: diff --git a/presidio_evaluator/models/flair_train.py b/presidio_evaluator/models/flair_train.py index 4f2fbb8..5aefd22 100644 --- a/presidio_evaluator/models/flair_train.py +++ b/presidio_evaluator/models/flair_train.py @@ -3,19 +3,24 @@ try: from flair.data import Corpus, Sentence from flair.datasets import ColumnCorpus - from flair.embeddings import TokenEmbeddings, WordEmbeddings, StackedEmbeddings, FlairEmbeddings, BertEmbeddings + from flair.embeddings import ( + TokenEmbeddings, + WordEmbeddings, + StackedEmbeddings, + FlairEmbeddings, + BertEmbeddings, + ) from flair.models import SequenceTagger from flair.trainers import ModelTrainer except ImportError: print("Flair is not installed") from presidio_evaluator import InputSample -from presidio_evaluator.data_generator import read_synth_dataset + from os import path class FlairTrainer: - @staticmethod def to_flair_row(text, pos, label): return "{} {} {}".format(text, pos, label) @@ -35,31 +40,36 @@ def to_flair(self, df, outfile="flair_train.txt"): for item in flair: f.write("{}\n".format(item)) - def create_flair_corpus(self, train_samples_path, test_samples_path, val_samples_path): + def create_flair_corpus( + self, train_samples_path, test_samples_path, val_samples_path + ): if not path.exists("flair_train.txt"): - train_samples = read_synth_dataset(train_samples_path) + train_samples = InputSample.read_dataset_json(train_samples_path) train_tagged = [sample for sample in train_samples if len(sample.spans) > 0] - print("Kept {} train samples after removal of non-tagged samples".format(len(train_tagged))) + print(f"Kept {len(train_tagged)} train samples after removal of non-tagged samples") train_data = InputSample.create_conll_dataset(train_tagged) self.to_flair(train_data, outfile="flair_train.txt") if not path.exists("flair_test.txt"): - test_samples = read_synth_dataset(test_samples_path) + test_samples = InputSample.read_dataset_json(test_samples_path) test_data = InputSample.create_conll_dataset(test_samples) self.to_flair(test_data, outfile="flair_test.txt") if not path.exists("flair_val.txt"): - val_samples = read_synth_dataset(val_samples_path) + val_samples = InputSample.read_dataset_json(val_samples_path) val_data = InputSample.create_conll_dataset(val_samples) self.to_flair(val_data, outfile="flair_val.txt") @staticmethod def read_corpus(data_folder): - columns = {0: 'text', 1: 'pos', 2: 'ner'} - corpus = ColumnCorpus(data_folder, columns, - train_file='flair_train.txt', - test_file='flair_val.txt', - dev_file='flair_test.txt') + columns = {0: "text", 1: "pos", 2: "ner"} + corpus = ColumnCorpus( + data_folder, + columns, + train_file="flair_train.txt", + test_file="flair_val.txt", + dev_file="flair_test.txt", + ) return corpus @staticmethod @@ -67,7 +77,7 @@ def train(corpus): print(corpus) # 2. what tag do we want to predict? - tag_type = 'ner' + tag_type = "ner" # 3. make the tag dictionary from the corpus tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type) @@ -75,49 +85,53 @@ def train(corpus): # 4. initialize embeddings embedding_types: List[TokenEmbeddings] = [ - WordEmbeddings('glove'), - FlairEmbeddings('news-forward'), - FlairEmbeddings('news-backward') + WordEmbeddings("glove"), + FlairEmbeddings("news-forward"), + FlairEmbeddings("news-backward"), ] embeddings: StackedEmbeddings = StackedEmbeddings(embeddings=embedding_types) # 5. initialize sequence tagger - tagger: SequenceTagger = SequenceTagger(hidden_size=256, - embeddings=embeddings, - tag_dictionary=tag_dictionary, - tag_type=tag_type, - use_crf=True) + tagger: SequenceTagger = SequenceTagger( + hidden_size=256, + embeddings=embeddings, + tag_dictionary=tag_dictionary, + tag_type=tag_type, + use_crf=True, + ) # 6. initialize trainer trainer: ModelTrainer = ModelTrainer(tagger, corpus) - checkpoint = 'resources/taggers/presidio-ner/checkpoint.pt' + checkpoint = "resources/taggers/presidio-ner/checkpoint.pt" # trainer = ModelTrainer.load_checkpoint(checkpoint, corpus) - trainer.train('resources/taggers/presidio-ner', - learning_rate=0.1, - mini_batch_size=32, - max_epochs=150, - checkpoint=True) - - sentence = Sentence('I am from Jerusalem') + trainer.train( + "resources/taggers/presidio-ner", + learning_rate=0.1, + mini_batch_size=32, + max_epochs=150, + checkpoint=True, + ) + + sentence = Sentence("I am from Jerusalem") # run NER over sentence tagger.predict(sentence) print(sentence) - print('The following NER tags are found:') + print("The following NER tags are found:") # iterate over entities and print - for entity in sentence.get_spans('ner'): + for entity in sentence.get_spans("ner"): print(entity) if __name__ == "__main__": - train_samples = "../data/generated_train_November 12 2019.json" - test_samples = "../data/generated_test_November 12 2019.json" - val_samples = "../data/generated_validation_November 12 2019.json" + train_samples = "../../data/train_Dec-19-2021.json" + test_samples = "../../data/test_Dec-19-2021.json" + val_samples = "../../data/validation_Dec-19-2021.json" trainer = FlairTrainer() trainer.create_flair_corpus(train_samples, test_samples, val_samples) diff --git a/presidio_evaluator/models/presidio_analyzer_wrapper.py b/presidio_evaluator/models/presidio_analyzer_wrapper.py index 33d35a3..05eb127 100644 --- a/presidio_evaluator/models/presidio_analyzer_wrapper.py +++ b/presidio_evaluator/models/presidio_analyzer_wrapper.py @@ -1,4 +1,4 @@ -from typing import List +from typing import List, Optional from presidio_analyzer import AnalyzerEngine @@ -9,11 +9,12 @@ class PresidioAnalyzerWrapper(BaseModel): def __init__( self, - analyzer_engine=AnalyzerEngine(), + analyzer_engine: Optional[AnalyzerEngine] = None, entities_to_keep: List[str] = None, verbose: bool = False, - labeling_scheme="BIO", - score_threshold=0.4, + labeling_scheme: str = "BIO", + score_threshold: float = 0.4, + language: str = "en", ): """ Evaluation wrapper for the Presidio Analyzer @@ -24,9 +25,13 @@ def __init__( verbose=verbose, labeling_scheme=labeling_scheme, ) - self.analyzer_engine = analyzer_engine - self.score_threshold = score_threshold + self.language = language + + if not analyzer_engine: + analyzer_engine = AnalyzerEngine() + self._update_recognizers_based_on_entities_to_keep(analyzer_engine) + self.analyzer_engine = analyzer_engine def predict(self, sample: InputSample) -> List[str]: @@ -80,3 +85,38 @@ def predict(self, sample: InputSample) -> List[str]: "TITLE": "O", "O": "O", } + + def _update_recognizers_based_on_entities_to_keep( + self, analyzer_engine: AnalyzerEngine + ): + """Check if there are any entities not supported by this presidio instance. + Add ORGANIZATION as it is removed by default + + """ + supported_entities = analyzer_engine.get_supported_entities( + language=self.language + ) + print("Entities supported by this Presidio Analyzer instance:") + print(", ".join(supported_entities)) + + if not self.entities: + self.entities = supported_entities + + for entity in self.entities: + if entity not in supported_entities: + print( + f"Entity {entity} is not supported by this instance of Presidio Analyzer Engine" + ) + + if "ORGANIZATION" in self.entities and "ORGANIZATION" not in supported_entities: + recognizers = analyzer_engine.get_recognizers() + spacy_recognizer = [ + rec + for rec in recognizers + if rec.name == "SpacyRecognizer" or rec.name == "StanzaRecognizer" + ] + if len(spacy_recognizer): + spacy_recognizer = spacy_recognizer[0] + spacy_recognizer.supported_entities.append("ORGANIZATION") + self.entities.append("ORGANIZATION") + print("Added ORGANIZATION as a supported entity from spaCy/Stanza") diff --git a/presidio_evaluator/models/presidio_recognizer_wrapper.py b/presidio_evaluator/models/presidio_recognizer_wrapper.py index f3f4b86..6102d11 100644 --- a/presidio_evaluator/models/presidio_recognizer_wrapper.py +++ b/presidio_evaluator/models/presidio_recognizer_wrapper.py @@ -9,15 +9,14 @@ class PresidioRecognizerWrapper(BaseModel): - def __init__( - self, - recognizer: EntityRecognizer, - nlp_engine: NlpEngine, - entities_to_keep: List[str] = None, - labeling_scheme: str = "BILUO", - with_nlp_artifacts: bool = False, - verbose: bool = False, + self, + recognizer: EntityRecognizer, + nlp_engine: NlpEngine, + entities_to_keep: List[str] = None, + labeling_scheme: str = "BILUO", + with_nlp_artifacts: bool = False, + verbose: bool = False, ): """ Evaluator for one specific PII recognizer @@ -37,6 +36,7 @@ def __init__( self.with_nlp_artifacts = with_nlp_artifacts self.recognizer = recognizer self.nlp_engine = nlp_engine + # def __make_nlp_artifacts(self, text: str): return self.nlp_engine.process_text(text, "en") diff --git a/presidio_evaluator/span_to_tag.py b/presidio_evaluator/span_to_tag.py index 592f6d5..07aefed 100644 --- a/presidio_evaluator/span_to_tag.py +++ b/presidio_evaluator/span_to_tag.py @@ -6,14 +6,14 @@ loaded_spacy = {} -def get_spacy(loaded_spacy=loaded_spacy, model_version="en_core_web_lg"): +def get_spacy(loaded_spacy=loaded_spacy, model_version="en_core_web_sm"): if model_version not in loaded_spacy: print("loading model {}".format(model_version)) loaded_spacy[model_version] = spacy.load(model_version) return loaded_spacy[model_version] -def tokenize(text, model_version="en_core_web_lg"): +def tokenize(text, model_version="en_core_web_sm"): return get_spacy(model_version=model_version)(text) @@ -137,9 +137,23 @@ def span_to_tag( for token in tokens: found = False for span_index in range(0, len(start)): - if start[span_index] <= token.idx < end[span_index]: + span_start_in_token = ( + token.idx <= start[span_index] <= token.idx + len(token.text) + ) + span_end_in_token = ( + token.idx <= end[span_index] <= token.idx + len(token.text) + ) + if ( + start[span_index] <= token.idx < end[span_index] + ): # token start is between start and end + io_tags.append(tag[span_index]) + found = True + elif ( + span_start_in_token and span_end_in_token + ): # span is within token boundaries (special case) io_tags.append(tag[span_index]) found = True + if found: break if not found: diff --git a/presidio_evaluator/validation.py b/presidio_evaluator/validation.py index c9b18c5..ea22cdc 100644 --- a/presidio_evaluator/validation.py +++ b/presidio_evaluator/validation.py @@ -9,7 +9,7 @@ def split_dataset(dataset: List[InputSample], ratios): """ - Splits a provided dataset into n groups, by the Template# attribute in each sample's metadata + Splits a provided dataset into n groups, by the template_id attribute :param dataset: List of InputSamples to be splitted :param ratios: list of percentages. The len of the list would be the len of the splits returned, e.g. [0.7,0.2,0.1] for train, test, validation @@ -41,7 +41,7 @@ def group_by_template(dataset: List[InputSample]) -> Dict[str, List[InputSample] """ Creates a dict of key = template ID and value = List[InputSamples] for this template id """ - samples_pattern_tup = [(sample.metadata["Template#"], sample) for sample in dataset] + samples_pattern_tup = [(sample.template_id, sample) for sample in dataset] group_by_template = defaultdict(list) for sample in samples_pattern_tup: diff --git a/requirements.txt b/requirements.txt index 9936fc0..640ec7e 100644 --- a/requirements.txt +++ b/requirements.txt @@ -6,11 +6,12 @@ tqdm>=4.60.0 haikunator>=2.1.0 schwifty faker>=9.6.0 -scikit_learn>=0.24.1 +scikit_learn<0.24 #flair -sklearn_crfsuite>=0.3.6 +sklearn_crfsuite pytest>=6.2.3 presidio_analyzer presidio_anonymizer requests>=2.25.1 -xmltodict>=0.12.0 \ No newline at end of file +xmltodict>=0.12.0 +https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.2.0/en_core_web_sm-3.2.0.tar.gz#egg=en_core_web_sm \ No newline at end of file diff --git a/tests/__init__.py b/tests/__init__.py index ab19c27..82747fd 100644 --- a/tests/__init__.py +++ b/tests/__init__.py @@ -29,10 +29,12 @@ def get_mock_fake_df(**kwargs): "NationalID": "14124", "Occupation": "Hunter", "Company": "Lolo and sons", - "Domain": "lolo.com"} + "Domain": "lolo.com", + } dict.update(kwargs) import pandas as pd + fake_pii_df = pd.DataFrame(dict, index=[0]) return fake_pii_df diff --git a/tests/conftest.py b/tests/conftest.py index b0bb99a..11b11d6 100644 --- a/tests/conftest.py +++ b/tests/conftest.py @@ -7,25 +7,28 @@ # * tests with inconclusive result are marked as "inconclusive" have to be run with pytest run --runinconclusive # * tests can be both slow and inconclusive and have to be run with pytest run --runslow --runinconclusive + def pytest_addoption(parser): parser.addoption( "--runslow", action="store_true", default=False, help="run slow tests" ) parser.addoption( - "--runinconclusive", action="store_true", default=False, help="run inconclusive tests" + "--runinconclusive", + action="store_true", + default=False, + help="run inconclusive tests", ) def pytest_collection_modifyitems(items, config): - if not config.getoption("--runslow"): + if not config.getoption("--runslow"): skip_slow = pytest.mark.skip(reason="need --runslow option to run") for item in items: if "slow" in item.keywords: item.add_marker(skip_slow) - if not config.getoption("--runinconclusive"): + if not config.getoption("--runinconclusive"): skip_slow = pytest.mark.skip(reason="need --runinconclusive option to run") for item in items: if "inconclusive" in item.keywords: item.add_marker(skip_slow) - diff --git a/tests/data/generated_large.json b/tests/data/generated_large.json new file mode 100644 index 0000000..fef8036 --- /dev/null +++ b/tests/data/generated_large.json @@ -0,0 +1,41002 @@ +[ + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Austria, but Tamara just has to get laid. Don't go to town, Judy!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Judy", + "start_position": 144, + "end_position": 148 + }, + { + "entity_type": "PERSON", + "entity_value": "Tamara", + "start_position": 97, + "end_position": 103 + }, + { + "entity_type": "LOCATION", + "entity_value": "Austria", + "start_position": 84, + "end_position": 91 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "the princess royal arrived at bauru this morning from bahrain.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "bahrain", + "start_position": 54, + "end_position": 61 + }, + { + "entity_type": "LOCATION", + "entity_value": "bauru", + "start_position": 30, + "end_position": 35 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Donald van der Voet", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Donald van der Voet", + "start_position": 58, + "end_position": 77 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "How do I change my address to 92 Eusebio Dávila 57\nΠΥΡΓΑ\n, LA\n 56139 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "92 Eusebio Dávila 57\nΠΥΡΓΑ\n, LA\n 56139", + "start_position": 30, + "end_position": 68 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "Smith Ltd. is the brainchild of our 3 founders: Kovalev, Lee and Phillips. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Phillips", + "start_position": 65, + "end_position": 73 + }, + { + "entity_type": "PERSON", + "entity_value": "Lee", + "start_position": 57, + "end_position": 60 + }, + { + "entity_type": "PERSON", + "entity_value": "Kovalev", + "start_position": 48, + "end_position": 55 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Smith Ltd.", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by James Koumura and starring Mikolčić", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mikolčić", + "start_position": 87, + "end_position": 95 + }, + { + "entity_type": "PERSON", + "entity_value": "James Koumura", + "start_position": 60, + "end_position": 73 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Ecuador, but Georgina just has to get laid. Don't go to town, Paul!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Paul", + "start_position": 146, + "end_position": 150 + }, + { + "entity_type": "PERSON", + "entity_value": "Georgina", + "start_position": 97, + "end_position": 105 + }, + { + "entity_type": "LOCATION", + "entity_value": "Ecuador", + "start_position": 84, + "end_position": 91 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "I'm originally from Bahamas", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bahamas", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Kalman: \\\"Who are you?\\\"\nJordan:\\\"I\\'m Mary\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mary", + "start_position": 39, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Jordan", + "start_position": 25, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Kalman", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "as promised, here's časlav's address:\n\n19 pierre delannoyplaats 211 apt. 098 erwetegem united states", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "19 pierre delannoyplaats 211 apt. 098 erwetegem united states", + "start_position": 39, + "end_position": 100 + }, + { + "entity_type": "PERSON", + "entity_value": "časlav", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Johnny is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Johnny", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5210402405591275", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5210402405591275", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "why is yulan so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "yulan", + "start_position": 7, + "end_position": 12 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "What's your name? Richard Bryndísardóttir", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Richard Bryndísardóttir", + "start_position": 18, + "end_position": 41 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "You can tell Alterio was a huge Susan Lyons fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Susan Lyons", + "start_position": 32, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Alterio", + "start_position": 13, + "end_position": 20 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "They had 6: Malon, Mark, Kaylee, Brandi, Miguel and Jennifer.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jennifer", + "start_position": 52, + "end_position": 60 + }, + { + "entity_type": "PERSON", + "entity_value": "Miguel", + "start_position": 41, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Brandi", + "start_position": 33, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "Kaylee", + "start_position": 25, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Mark", + "start_position": 19, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Malon", + "start_position": 12, + "end_position": 17 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "You can tell Linneo was a huge Michele Iversen fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michele Iversen", + "start_position": 31, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Linneo", + "start_position": 13, + "end_position": 19 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 3/23/1940", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "3/23/1940", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "she named him joshua", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "joshua", + "start_position": 14, + "end_position": 20 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "Cantrell Ltd. is the brainchild of our 3 founders: Eklund, Warren and Bailey. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Bailey", + "start_position": 70, + "end_position": 76 + }, + { + "entity_type": "PERSON", + "entity_value": "Warren", + "start_position": 59, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Eklund", + "start_position": 51, + "end_position": 57 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Cantrell Ltd.", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Here's my SSN: 308-63-0237", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "308-63-0237", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "please update the billing address with 11 via goffredo mameli 149\n suite 268\n poggiovalle di borgorose\n antigua and barbuda 48083 for this card: 4716424521511864", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716424521511864", + "start_position": 145, + "end_position": 161 + }, + { + "entity_type": "ADDRESS", + "entity_value": "11 via goffredo mameli 149\n suite 268\n poggiovalle di borgorose\n antigua and barbuda 48083", + "start_position": 39, + "end_position": 129 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "The letter arrived at 01 4589 40th Street Suite 603 Calgary AB last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "01 4589 40th Street Suite 603 Calgary AB", + "start_position": 22, + "end_position": 62 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "78 Camiño Ancho 91\n Suite 286\n El Tornadizo\n Gabon 66298", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66298", + "start_position": 51, + "end_position": 56 + }, + { + "entity_type": "LOCATION", + "entity_value": "Gabon", + "start_position": 45, + "end_position": 50 + }, + { + "entity_type": "LOCATION", + "entity_value": "El Tornadizo", + "start_position": 31, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 286", + "start_position": 20, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Camiño Ancho 91", + "start_position": 3, + "end_position": 18 + }, + { + "entity_type": "ADDRESS", + "entity_value": "78", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Carrie Armstrong).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carrie Armstrong", + "start_position": 58, + "end_position": 74 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 52 Rua Joaquim de Oliveira Cruz 1615 Suite 498 Curitiba Paraná", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "52 Rua Joaquim de Oliveira Cruz 1615 Suite 498 Curitiba Paraná", + "start_position": 26, + "end_position": 88 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "As promised, here's Liam's address:\n\n69 Roheline 43\n Apt. 305\n Lepassaare\n Marshall Islands 56293", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "69 Roheline 43\n Apt. 305\n Lepassaare\n Marshall Islands 56293", + "start_position": 37, + "end_position": 97 + }, + { + "entity_type": "PERSON", + "entity_value": "Liam", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "They had 6: Rogelio, Sharon, Jessica, Chloe, Andrea and Brandi.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandi", + "start_position": 56, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrea", + "start_position": 45, + "end_position": 51 + }, + { + "entity_type": "PERSON", + "entity_value": "Chloe", + "start_position": 38, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Jessica", + "start_position": 29, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Sharon", + "start_position": 21, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Rogelio", + "start_position": 12, + "end_position": 19 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "They had 6: Marie, Hannah, Kyle, Jessica, Megan and Ashley.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ashley", + "start_position": 52, + "end_position": 58 + }, + { + "entity_type": "PERSON", + "entity_value": "Megan", + "start_position": 42, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Jessica", + "start_position": 33, + "end_position": 40 + }, + { + "entity_type": "PERSON", + "entity_value": "Kyle", + "start_position": 27, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Hannah", + "start_position": 19, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Marie", + "start_position": 12, + "end_position": 17 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 07 262 Pavlou Drandaki\nKÖPMANHOLMEN\n, nan\n 40402", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "07 262 Pavlou Drandaki\nKÖPMANHOLMEN\n, nan\n 40402", + "start_position": 47, + "end_position": 95 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "??? natasha higuchi\n??? department of better technology\n??? 42 machelsesteenweg 197\n??? suite 834\n??? montzen\n??? macedonia 64733", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "64733", + "start_position": 124, + "end_position": 129 + }, + { + "entity_type": "LOCATION", + "entity_value": "macedonia", + "start_position": 114, + "end_position": 123 + }, + { + "entity_type": "LOCATION", + "entity_value": "montzen", + "start_position": 102, + "end_position": 109 + }, + { + "entity_type": "ADDRESS", + "entity_value": "suite 834", + "start_position": 88, + "end_position": 97 + }, + { + "entity_type": "ADDRESS", + "entity_value": "machelsesteenweg 197", + "start_position": 63, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "42", + "start_position": 60, + "end_position": 62 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "department of better technology", + "start_position": 24, + "end_position": 55 + }, + { + "entity_type": "PERSON", + "entity_value": "natasha higuchi", + "start_position": 4, + "end_position": 19 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "I'm originally from Israel", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Israel", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Mr. Ford is a 50 year old man who grew up in Kalatsova.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kalatsova", + "start_position": 45, + "end_position": 54 + }, + { + "entity_type": "PERSON", + "entity_value": "Ford", + "start_position": 4, + "end_position": 8 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "It's like that since 11/15/1979", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "11/15/1979", + "start_position": 21, + "end_position": 31 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "Ludwig is from Solar Census", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Solar Census", + "start_position": 15, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Ludwig", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "Name: Allen Akhtakhanov\nAddress: the corner of Eötvös út 10. and Sinko Street", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Eötvös út 10. and Sinko Street", + "start_position": 40, + "end_position": 84 + }, + { + "entity_type": "PERSON", + "entity_value": "Allen Akhtakhanov", + "start_position": 9, + "end_position": 26 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": ">Nathaniel Perković\n>Smith Ltd.\n>Jennifer Langset\n>31 Vesturgata 66\n>Suite 574\n>Reykjavík\n>Turkmenistan 51262", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "51262", + "start_position": 104, + "end_position": 109 + }, + { + "entity_type": "LOCATION", + "entity_value": "Turkmenistan", + "start_position": 91, + "end_position": 103 + }, + { + "entity_type": "LOCATION", + "entity_value": "Reykjavík", + "start_position": 80, + "end_position": 89 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 574", + "start_position": 69, + "end_position": 78 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Vesturgata 66", + "start_position": 54, + "end_position": 67 + }, + { + "entity_type": "ADDRESS", + "entity_value": "31", + "start_position": 51, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Jennifer Langset", + "start_position": 33, + "end_position": 49 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Smith Ltd.", + "start_position": 21, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Nathaniel Perković", + "start_position": 1, + "end_position": 19 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4485527627509597 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485527627509597", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "They're not answering at (88) 684-334", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(88) 684-334", + "start_position": 25, + "end_position": 37 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Elizabeth Mitchell's Cautionary Tales. Is there a better example of unbridled creativity than early Maida?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Maida", + "start_position": 224, + "end_position": 229 + }, + { + "entity_type": "PERSON", + "entity_value": "Elizabeth Mitchell", + "start_position": 124, + "end_position": 142 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie McKenzie is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "McKenzie", + "start_position": 23, + "end_position": 31 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": ">Ashley Belov\n>Mclaughlin Ltd.\n>Tina Alexandrov\n>18 15 Millicent Drive\n>Suite 459\n>WANG WAUK\n>Latvia 04731", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "04731", + "start_position": 101, + "end_position": 106 + }, + { + "entity_type": "LOCATION", + "entity_value": "Latvia", + "start_position": 94, + "end_position": 100 + }, + { + "entity_type": "LOCATION", + "entity_value": "WANG WAUK", + "start_position": 83, + "end_position": 92 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 459", + "start_position": 72, + "end_position": 81 + }, + { + "entity_type": "ADDRESS", + "entity_value": "15 Millicent Drive", + "start_position": 52, + "end_position": 70 + }, + { + "entity_type": "ADDRESS", + "entity_value": "18", + "start_position": 49, + "end_position": 51 + }, + { + "entity_type": "PERSON", + "entity_value": "Tina Alexandrov", + "start_position": 32, + "end_position": 47 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Mclaughlin Ltd.", + "start_position": 15, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Ashley Belov", + "start_position": 1, + "end_position": 13 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "Sometimes people call me Christophe", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christophe", + "start_position": 25, + "end_position": 35 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "Nicole Querry\nCrushing, grinding, and polishing machine tender\nBuena Vista Garden Maintenance\nPSC 7004, Box 8380\nAPO AP 11949", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 7004, Box 8380\nAPO AP 11949", + "start_position": 94, + "end_position": 125 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Buena Vista Garden Maintenance", + "start_position": 63, + "end_position": 93 + }, + { + "entity_type": "TITLE", + "entity_value": "Crushing, grinding, and polishing machine tender", + "start_position": 14, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Nicole Querry", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "When: 1993-01-04 14:56:41\nWhere: SAINT-PRIEST Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "SAINT-PRIEST", + "start_position": 33, + "end_position": 45 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1993-01-04 14:56:41", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "The Peter Pham version recorded for Earth Networks became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Earth Networks", + "start_position": 36, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "Peter Pham", + "start_position": 4, + "end_position": 14 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "blink-182 pay tribute here to the vanuatu. producer matthew pušaver explained to fuse tv: \"we all liked the idea of writing a song about our state, where we live and love. to me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "matthew pušaver", + "start_position": 52, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "vanuatu", + "start_position": 34, + "end_position": 41 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4916613736624573 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916613736624573", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "Why is Alena so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Alena", + "start_position": 7, + "end_position": 12 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Sousa and Ball were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ball", + "start_position": 59, + "end_position": 63 + }, + { + "entity_type": "PERSON", + "entity_value": "Sousa", + "start_position": 49, + "end_position": 54 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "Aaron Hébert\n\n98 P.O. Box 101\n Suite 242\n Qeqertarsuaq\n\n Greece 79976", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "79976", + "start_position": 64, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "Greece", + "start_position": 57, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "Qeqertarsuaq", + "start_position": 42, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 242", + "start_position": 31, + "end_position": 40 + }, + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 101", + "start_position": 17, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "98", + "start_position": 14, + "end_position": 16 + }, + { + "entity_type": "PERSON", + "entity_value": "Aaron Hébert", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Name: Christopher Cadena\nAddress: 81 1991 Dikbas Road\nTrancoso\n, GU\n 59797", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "81 1991 Dikbas Road\nTrancoso\n, GU\n 59797", + "start_position": 41, + "end_position": 81 + }, + { + "entity_type": "PERSON", + "entity_value": "Christopher Cadena", + "start_position": 9, + "end_position": 27 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "Mapquest\n\n39 Laugarvegur 77 Apt. 787 Reykjavík Benin", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "39 Laugarvegur 77 Apt. 787 Reykjavík Benin", + "start_position": 10, + "end_position": 52 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Mapquest", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Kelvin is from Innography", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Innography", + "start_position": 15, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Kelvin", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "My friend lives in PUNKAHARJU", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "PUNKAHARJU", + "start_position": 19, + "end_position": 29 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "Why is Daniel so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Daniel", + "start_position": 7, + "end_position": 13 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "They had 6: Layla, Harry, Michele, James, Erika and Shelley.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Shelley", + "start_position": 52, + "end_position": 59 + }, + { + "entity_type": "PERSON", + "entity_value": "Erika", + "start_position": 42, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "James", + "start_position": 35, + "end_position": 40 + }, + { + "entity_type": "PERSON", + "entity_value": "Michele", + "start_position": 26, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Harry", + "start_position": 19, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Layla", + "start_position": 12, + "end_position": 17 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "His social security number is 455-99-6622", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "455-99-6622", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Amy Szepesy\n\n95 55 Halsey Road\n Suite 881\n HAYBOROUGH\n Thailand 52574", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "52574", + "start_position": 64, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "Thailand", + "start_position": 55, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "HAYBOROUGH", + "start_position": 43, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 881", + "start_position": 32, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "55 Halsey Road", + "start_position": 16, + "end_position": 30 + }, + { + "entity_type": "ADDRESS", + "entity_value": "95", + "start_position": 13, + "end_position": 15 + }, + { + "entity_type": "PERSON", + "entity_value": "Amy Szepesy", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "Here's my SSN: 205-46-4452", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "205-46-4452", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "Sharon Adamson\n\n35 Kromwater 38\n Apt. 705\n Zoetermeer\n Tanzania 53144\n06-10446904-Office\\,001-748-088-2851x818-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-748-088-2851x818", + "start_position": 90, + "end_position": 110 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "06-10446904", + "start_position": 70, + "end_position": 81 + }, + { + "entity_type": "ADDRESS", + "entity_value": "53144", + "start_position": 64, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tanzania", + "start_position": 55, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "Zoetermeer", + "start_position": 43, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 705", + "start_position": 33, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Kromwater 38", + "start_position": 19, + "end_position": 31 + }, + { + "entity_type": "ADDRESS", + "entity_value": "35", + "start_position": 16, + "end_position": 18 + }, + { + "entity_type": "PERSON", + "entity_value": "Sharon Adamson", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "James had given Mary his address: 85 Trg revolucije 12", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Trg revolucije 12", + "start_position": 37, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "85", + "start_position": 34, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Mary", + "start_position": 16, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "James", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "i want to increase limit on my card # 4716887631546865 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716887631546865", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "My zip code is 35649", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "35649", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5307962233613678", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5307962233613678", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "Unlike the Takuda novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Takuda", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "What's your email? PeterFriedman@cuvox.de", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "PeterFriedman@cuvox.de", + "start_position": 19, + "end_position": 41 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "Christina Pena lives at 95 Lille Vibyvej 8, Måløv", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Måløv", + "start_position": 44, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Lille Vibyvej 8", + "start_position": 27, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "95", + "start_position": 24, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Christina Pena", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: USS Dam\nFPO AE 94560", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USS Dam\nFPO AE 94560", + "start_position": 63, + "end_position": 83 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "Why is David so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "David", + "start_position": 7, + "end_position": 12 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "I want to add Christina Ochoa as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christina Ochoa", + "start_position": 14, + "end_position": 29 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "What's your credit card? 4485360473893059", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485360473893059", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Angela Langen).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Angela Langen", + "start_position": 58, + "end_position": 71 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Paula Bjelajac\nDemystdata\n11 Eriksbo Västergärde 98\n Suite 568\n ANGERED\n Mali\n089 72 63 41 office\n166-684-7899 fax\n(978)645-9740x11144 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(978)645-9740x11144", + "start_position": 115, + "end_position": 134 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "166-684-7899", + "start_position": 98, + "end_position": 110 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "089 72 63 41", + "start_position": 78, + "end_position": 90 + }, + { + "entity_type": "ADDRESS", + "entity_value": "11 Eriksbo Västergärde 98\n Suite 568\n ANGERED\n Mali", + "start_position": 26, + "end_position": 77 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Demystdata", + "start_position": 15, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Paula Bjelajac", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "She was born on 2/7/1961. Her maiden name is McCathie", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "McCathie", + "start_position": 45, + "end_position": 53 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2/7/1961", + "start_position": 16, + "end_position": 24 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "My name is Andrew Arnoux but everyone calls me Sandro", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sandro", + "start_position": 47, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrew Arnoux", + "start_position": 11, + "end_position": 24 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "Helen Földesy\nTraining and development coordinator\nPracti-Plan\nthe corner of Calle Proc. San Sebastián 1 and Lucchese Street", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Calle Proc. San Sebastián 1 and Lucchese Street", + "start_position": 63, + "end_position": 124 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Practi-Plan", + "start_position": 51, + "end_position": 62 + }, + { + "entity_type": "TITLE", + "entity_value": "Training and development coordinator", + "start_position": 14, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "Helen Földesy", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "Follow up with Edward Baranova in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Edward Baranova", + "start_position": 15, + "end_position": 30 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "She was born on 6/4/1967. Her maiden name is Fedorov", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Fedorov", + "start_position": 45, + "end_position": 52 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "6/4/1967", + "start_position": 16, + "end_position": 24 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 4/17/1986", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "4/17/1986", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "A tribute to Ms. Kristi Bragadóttir ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ms. Kristi Bragadóttir", + "start_position": 13, + "end_position": 35 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "Christian had given Lukas his address: 15 Via Carlo Cattaneo 130, Burgos", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Burgos", + "start_position": 66, + "end_position": 72 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via Carlo Cattaneo 130", + "start_position": 42, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "15", + "start_position": 39, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "Lukas", + "start_position": 20, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Christian", + "start_position": 0, + "end_position": 9 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 68 Hulsterdreef 100 Apt. 535, København K, Sweden 36018", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "68 Hulsterdreef 100 Apt. 535, København K, Sweden 36018", + "start_position": 26, + "end_position": 81 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "??? Andrea Johansen\n??? Factset\n??? 08 251 Charilaou Trikoupi Str.\n??? Suite 383\n??? Pigenia\n??? Tonga 44249", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "44249", + "start_position": 103, + "end_position": 108 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tonga", + "start_position": 97, + "end_position": 102 + }, + { + "entity_type": "LOCATION", + "entity_value": "Pigenia", + "start_position": 85, + "end_position": 92 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 383", + "start_position": 71, + "end_position": 80 + }, + { + "entity_type": "ADDRESS", + "entity_value": "251 Charilaou Trikoupi Str.", + "start_position": 39, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "08", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Factset", + "start_position": 24, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrea Johansen", + "start_position": 4, + "end_position": 19 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "mr. martin is a 50 year old man who grew up in grasse.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "grasse", + "start_position": 47, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "martin", + "start_position": 4, + "end_position": 10 + }, + { + "entity_type": "PERSON", + "entity_value": "mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Penny Cavalcanti", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Penny Cavalcanti", + "start_position": 43, + "end_position": 59 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 03 2657 Koontz Lane Apt. 602, Delta del Tigre, Austria 29614. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "03 2657 Koontz Lane Apt. 602, Delta del Tigre, Austria 29614", + "start_position": 27, + "end_position": 87 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "She was born on 4/22/1965. Her maiden name is Hale", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Hale", + "start_position": 46, + "end_position": 50 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "4/22/1965", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "It's like that since 2/22/1974", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "2/22/1974", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "His social security number is 081-80-5372", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "081-80-5372", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Nicole Kay and starring Cavazos", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cavazos", + "start_position": 84, + "end_position": 91 + }, + { + "entity_type": "PERSON", + "entity_value": "Nicole Kay", + "start_position": 60, + "end_position": 70 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "It's like that since 12/30/1951", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "12/30/1951", + "start_position": 21, + "end_position": 31 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "card number 4539214712746634 is lost, can you please send a new one to 56 ul. Karpacka 69 Apt. 837 Bydgoszcz nan? I am in ΛΕΜΕΣΟΣ for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ΛΕΜΕΣΟΣ", + "start_position": 122, + "end_position": 129 + }, + { + "entity_type": "ADDRESS", + "entity_value": "56 ul. Karpacka 69 Apt. 837 Bydgoszcz nan", + "start_position": 71, + "end_position": 112 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539214712746634", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "They had 6: Jan, Kristi, Stephen, Julie, Nina and Patricia.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Patricia", + "start_position": 50, + "end_position": 58 + }, + { + "entity_type": "PERSON", + "entity_value": "Nina", + "start_position": 41, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Julie", + "start_position": 34, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephen", + "start_position": 25, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "Kristi", + "start_position": 17, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Jan", + "start_position": 12, + "end_position": 15 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Open Data Nation\n\n07 173 Raycroft Street Apt. 018 Woolston Christchurch", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "07 173 Raycroft Street Apt. 018 Woolston Christchurch", + "start_position": 18, + "end_position": 71 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Open Data Nation", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "we'll meet sunday at craig, palmer and quinn, 80 p.o. box 15, uummannaq", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "uummannaq", + "start_position": 62, + "end_position": 71 + }, + { + "entity_type": "ADDRESS", + "entity_value": "p.o. box 15", + "start_position": 49, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "80", + "start_position": 46, + "end_position": 48 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "craig, palmer and quinn", + "start_position": 21, + "end_position": 44 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "sunday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "Clotilde, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Clotilde", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "Donald had given Laura his address: 98 Grote Baan 477, Kaster", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kaster", + "start_position": 55, + "end_position": 61 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Grote Baan 477", + "start_position": 39, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "98", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Laura", + "start_position": 17, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Donald", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Maxwell Szegedy).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Maxwell Szegedy", + "start_position": 58, + "end_position": 73 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 33 11 Barker Street\nZamayón\n, SA\n Australia 38447", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "33 11 Barker Street\nZamayón\n, SA\n Australia 38447", + "start_position": 26, + "end_position": 75 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "The address of Votizen is 56 Canelones 2266\nFahrdorf\n, SH\n 05775", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "56 Canelones 2266\nFahrdorf\n, SH\n 05775", + "start_position": 26, + "end_position": 64 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Votizen", + "start_position": 15, + "end_position": 22 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "I'm in Las Toscas, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Las Toscas", + "start_position": 7, + "end_position": 17 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "A tribute to Robert Vodir ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Robert Vodir", + "start_position": 13, + "end_position": 25 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "The title refers to 491 St. John Street street in Malmesbury. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Bezrukov Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Bezrukov Street", + "start_position": 208, + "end_position": 223 + }, + { + "entity_type": "LOCATION", + "entity_value": "Malmesbury", + "start_position": 50, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "491 St. John Street", + "start_position": 20, + "end_position": 39 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "jared paavolainen\n\n16 salontie 6\n apt. 523\n urjala\n maldives 58673\n042 078 6381-office\\,833.719.3994x1887-fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "833.719.3994x1887", + "start_position": 88, + "end_position": 105 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "042 078 6381", + "start_position": 67, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "58673", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "maldives", + "start_position": 52, + "end_position": 60 + }, + { + "entity_type": "LOCATION", + "entity_value": "urjala", + "start_position": 44, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "apt. 523", + "start_position": 34, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "salontie 6", + "start_position": 22, + "end_position": 32 + }, + { + "entity_type": "ADDRESS", + "entity_value": "16", + "start_position": 19, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "jared paavolainen", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "My name is Kenjirou", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kenjirou", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "Unlike the Salómonsson novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Salómonsson", + "start_position": 11, + "end_position": 22 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "During the 1990s, Simpletuition invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Simpletuition", + "start_position": 18, + "end_position": 31 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 5/19/1937", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "5/19/1937", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "Here's my SSN: 581-12-5803", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "581-12-5803", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "Jaylee is from Amazon Web Services", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Amazon Web Services", + "start_position": 15, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Jaylee", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: 78 Untere Donaulände 33\nIzsófalva\n, BZ\n Equatorial Guinea 42309, and the corner of P.O. Box 101 and van Bokhorst Street", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of P.O. Box 101 and van Bokhorst Street", + "start_position": 112, + "end_position": 162 + }, + { + "entity_type": "ADDRESS", + "entity_value": "78 Untere Donaulände 33\nIzsófalva\n, BZ\n Equatorial Guinea 42309", + "start_position": 43, + "end_position": 106 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "Unlike the van Gijn novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "van Gijn", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "What's your email? MarilenaBuccho@rhyta.com", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "MarilenaBuccho@rhyta.com", + "start_position": 19, + "end_position": 43 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 81 Stallstigen 19 Suite 212 ÖSTERSKÄR Botswana", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "81 Stallstigen 19 Suite 212 ÖSTERSKÄR Botswana", + "start_position": 63, + "end_position": 109 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "A tribute to Gary de Vaan ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Gary de Vaan", + "start_position": 13, + "end_position": 25 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "She moved here from Cuba", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cuba", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Klimek shouted at Katie: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Katie", + "start_position": 18, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Klimek", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "The title refers to 87 Rue Joseph Vernet street in BAR-LE-DUC. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Almeida Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Almeida Street", + "start_position": 209, + "end_position": 223 + }, + { + "entity_type": "LOCATION", + "entity_value": "BAR-LE-DUC", + "start_position": 51, + "end_position": 61 + }, + { + "entity_type": "ADDRESS", + "entity_value": "87 Rue Joseph Vernet", + "start_position": 20, + "end_position": 40 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "What's your credit card? 4539984176914486", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539984176914486", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "They're not answering at 785 8949", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "785 8949", + "start_position": 25, + "end_position": 33 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by William Olsen).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "William Olsen", + "start_position": 58, + "end_position": 71 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "His social security number is 201-82-2178", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "201-82-2178", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: 60 Gosposka ulica 47\nMelo, CA 13241, and 93 Via Pisanelli 89, Egkomi, Papua New Guinea", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "93 Via Pisanelli 89, Egkomi, Papua New Guinea", + "start_position": 84, + "end_position": 129 + }, + { + "entity_type": "ADDRESS", + "entity_value": "60 Gosposka ulica 47\nMelo, CA 13241", + "start_position": 43, + "end_position": 78 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "My credit card 5117025039323296 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5117025039323296", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "Mrs. Diana Weöres Apt. 434 40 Rue de la Sarthe 421\nHousse WLG 95697", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "95697", + "start_position": 62, + "end_position": 67 + }, + { + "entity_type": "ADDRESS", + "entity_value": "WLG", + "start_position": 58, + "end_position": 61 + }, + { + "entity_type": "LOCATION", + "entity_value": "Housse", + "start_position": 51, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Rue de la Sarthe 421", + "start_position": 30, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "40", + "start_position": 27, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 434", + "start_position": 18, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Diana Weöres", + "start_position": 5, + "end_position": 17 + }, + { + "entity_type": "PREFIX", + "entity_value": "Mrs.", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "14 Republica de Chile 8305\n Suite 258\n Blanquillo\n Indonesia 87513", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "87513", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Indonesia", + "start_position": 51, + "end_position": 60 + }, + { + "entity_type": "LOCATION", + "entity_value": "Blanquillo", + "start_position": 39, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 258", + "start_position": 28, + "end_position": 37 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Republica de Chile 8305", + "start_position": 3, + "end_position": 26 + }, + { + "entity_type": "ADDRESS", + "entity_value": "14", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email VaclavDvorak@armyspy.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "VaclavDvorak@armyspy.com", + "start_position": 39, + "end_position": 63 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "alexandra fowler\n\n58 kvaløyvågvegen 140\n suite 763\n kvaløysletta\n\n mexico 52199", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "52199", + "start_position": 74, + "end_position": 79 + }, + { + "entity_type": "LOCATION", + "entity_value": "mexico", + "start_position": 67, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "kvaløysletta", + "start_position": 52, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "suite 763", + "start_position": 41, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "kvaløyvågvegen 140", + "start_position": 21, + "end_position": 39 + }, + { + "entity_type": "ADDRESS", + "entity_value": "58", + "start_position": 18, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "alexandra fowler", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 67 Wallis Street Cunha Street\n Suite 511\n RANDWICK\n Uganda 14660", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "67 Wallis Street Cunha Street\n Suite 511\n RANDWICK\n Uganda 14660", + "start_position": 47, + "end_position": 111 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 4532480808343548", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532480808343548", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "Please return to the corner of Auenweg 85 and Kesä Street in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Auenweg 85 and Kesä Street", + "start_position": 17, + "end_position": 57 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "She moved here from Seychelles", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Seychelles", + "start_position": 20, + "end_position": 30 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": ">Haley Fukunaga\n>Muckrockcom\n>Christopher Roseby\n>60 Aqqusinersuaq 274\n>Apt. 217\n>Alluitsup Paa\n>South Africa 38308", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "38308", + "start_position": 110, + "end_position": 115 + }, + { + "entity_type": "LOCATION", + "entity_value": "South Africa", + "start_position": 97, + "end_position": 109 + }, + { + "entity_type": "LOCATION", + "entity_value": "Alluitsup Paa", + "start_position": 82, + "end_position": 95 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 217", + "start_position": 72, + "end_position": 80 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Aqqusinersuaq 274", + "start_position": 53, + "end_position": 70 + }, + { + "entity_type": "ADDRESS", + "entity_value": "60", + "start_position": 50, + "end_position": 52 + }, + { + "entity_type": "PERSON", + "entity_value": "Christopher Roseby", + "start_position": 30, + "end_position": 48 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Muckrockcom", + "start_position": 17, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Haley Fukunaga", + "start_position": 1, + "end_position": 15 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "Oscar, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Oscar", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "dr. hurst is a 50 year old man who grew up in onnezies.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "onnezies", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "PERSON", + "entity_value": "hurst", + "start_position": 4, + "end_position": 9 + }, + { + "entity_type": "PERSON", + "entity_value": "dr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "Unlike the Vizirov novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Vizirov", + "start_position": 11, + "end_position": 18 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Dr. Jacob van Gameren?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jacob van Gameren", + "start_position": 88, + "end_position": 105 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: Unit 1783 Box 3210\nDPO AP 99855", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 1783 Box 3210\nDPO AP 99855", + "start_position": 63, + "end_position": 94 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. John Hansen?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "John Hansen", + "start_position": 88, + "end_position": 99 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Jason Tórrez", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jason Tórrez", + "start_position": 43, + "end_position": 55 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 25 Schaarsteinweg 58 Apt. 584 Ebermannsdorf Belarus. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "25 Schaarsteinweg 58 Apt. 584 Ebermannsdorf Belarus", + "start_position": 27, + "end_position": 78 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "She was born on 12/15/1995. Her maiden name is Cortés", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cortés", + "start_position": 47, + "end_position": 53 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "12/15/1995", + "start_position": 16, + "end_position": 26 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "I have lost my card 5160856327991659. Could you please block my credit card ASAP ? My name is Shane Berg.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Shane Berg", + "start_position": 94, + "end_position": 104 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5160856327991659", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Scott had given Ömür his address: 95 199 Beach Road", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "199 Beach Road", + "start_position": 37, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "95", + "start_position": 34, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Ömür", + "start_position": 16, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Scott", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 86.231.85.193 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "86.231.85.193", + "start_position": 50, + "end_position": 63 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "will my account stay active? it's under my partner's name roberto yamamura", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "roberto yamamura", + "start_position": 58, + "end_position": 74 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "They had 6: Saidali, Elizabeth, Michael, Arthur, Brittany and Anthony.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Anthony", + "start_position": 62, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Brittany", + "start_position": 49, + "end_position": 57 + }, + { + "entity_type": "PERSON", + "entity_value": "Arthur", + "start_position": 41, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Michael", + "start_position": 32, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "Elizabeth", + "start_position": 21, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Saidali", + "start_position": 12, + "end_position": 19 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Sometimes people call me Mark", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mark", + "start_position": 25, + "end_position": 29 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "how do i change my address to unit 9456 box 8731\ndpo ap 71610 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "unit 9456 box 8731\ndpo ap 71610", + "start_position": 30, + "end_position": 61 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "Xavier is from Redfin", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Redfin", + "start_position": 15, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Xavier", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "his social security number is 012-52-7174", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "012-52-7174", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "His social security number is 659-30-5098", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "659-30-5098", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Beverly Barbosa\n\n57 Askelund 1\n Suite 322\n Boeslunde\n Tajikistan 67655\n50-98-28-96-Office\\,751-954-9268-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "751-954-9268", + "start_position": 91, + "end_position": 103 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "50-98-28-96", + "start_position": 71, + "end_position": 82 + }, + { + "entity_type": "ADDRESS", + "entity_value": "67655", + "start_position": 65, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tajikistan", + "start_position": 54, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "Boeslunde", + "start_position": 43, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 322", + "start_position": 32, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Askelund 1", + "start_position": 20, + "end_position": 30 + }, + { + "entity_type": "ADDRESS", + "entity_value": "57", + "start_position": 17, + "end_position": 19 + }, + { + "entity_type": "PERSON", + "entity_value": "Beverly Barbosa", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "They had 6: Hélène, Adam, Pamela, John, Brandon and Melinda.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Melinda", + "start_position": 52, + "end_position": 59 + }, + { + "entity_type": "PERSON", + "entity_value": "Brandon", + "start_position": 40, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "John", + "start_position": 34, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Pamela", + "start_position": 26, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "Adam", + "start_position": 20, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Hélène", + "start_position": 12, + "end_position": 18 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Who's coming to Czech Republic with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Czech Republic", + "start_position": 16, + "end_position": 30 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "She was born on 11/4/1993. Her maiden name is Kappel", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kappel", + "start_position": 46, + "end_position": 52 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "11/4/1993", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5532960294069191 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5532960294069191", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "I'm originally from Belize", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Belize", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "card number 4556208319144605 is lost, can you please send a new one to 22 Avda. Alameda Sundheim 46 Suite 385, Becerril de Campos, Dominica 98955? I am in PORSGRUNN for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "PORSGRUNN", + "start_position": 155, + "end_position": 164 + }, + { + "entity_type": "ADDRESS", + "entity_value": "22 Avda. Alameda Sundheim 46 Suite 385, Becerril de Campos, Dominica 98955", + "start_position": 71, + "end_position": 145 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556208319144605", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "??? Dr. Brenda Eldarkhanov\n??? Becker-Shaffer\n??? 09 Avenue des Sartiaux 318\n??? Apt. 580\n??? Wijchmaal\n??? Guyana 41886", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "41886", + "start_position": 115, + "end_position": 120 + }, + { + "entity_type": "LOCATION", + "entity_value": "Guyana", + "start_position": 108, + "end_position": 114 + }, + { + "entity_type": "LOCATION", + "entity_value": "Wijchmaal", + "start_position": 94, + "end_position": 103 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 580", + "start_position": 81, + "end_position": 89 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Avenue des Sartiaux 318", + "start_position": 53, + "end_position": 76 + }, + { + "entity_type": "ADDRESS", + "entity_value": "09", + "start_position": 50, + "end_position": 52 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Becker-Shaffer", + "start_position": 31, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr. Brenda Eldarkhanov", + "start_position": 4, + "end_position": 26 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "She named him Sean", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sean", + "start_position": 14, + "end_position": 18 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "please send my portfolio to this email jonheidurskuladottir@cuvox.de", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "jonheidurskuladottir@cuvox.de", + "start_position": 39, + "end_position": 68 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "Slovenia was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Slovenia", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "have you been to a david lange concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "david lange", + "start_position": 19, + "end_position": 30 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "the datamyne office is at 21 114 rue sidi apt. 789, valverde de valdelacasa, swaziland 14385", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "21 114 rue sidi apt. 789, valverde de valdelacasa, swaziland 14385", + "start_position": 26, + "end_position": 92 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "datamyne", + "start_position": 4, + "end_position": 12 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Mark Roseby and starring Söderberg", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Söderberg", + "start_position": 85, + "end_position": 94 + }, + { + "entity_type": "PERSON", + "entity_value": "Mark Roseby", + "start_position": 60, + "end_position": 71 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "We moved here from Arona", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Arona", + "start_position": 19, + "end_position": 24 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to PSC 5605, Box 8122\nAPO AP 96504", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 5605, Box 8122\nAPO AP 96504", + "start_position": 26, + "end_position": 57 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Angela Švec will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Angela Švec", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "the leah holmberg version recorded for think computer corporation became the first celebrity recording by a classical musician to sell one million copies. the song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "think computer corporation", + "start_position": 39, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "leah holmberg", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 19 Joan Maetsuyckerstraat 15\n Apt. 263\n Den Haag\n Iceland", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "19 Joan Maetsuyckerstraat 15\n Apt. 263\n Den Haag\n Iceland", + "start_position": 47, + "end_position": 104 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "Who's coming to Nigeria with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Nigeria", + "start_position": 16, + "end_position": 23 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Lang and Fowler were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Fowler", + "start_position": 58, + "end_position": 64 + }, + { + "entity_type": "PERSON", + "entity_value": "Lang", + "start_position": 49, + "end_position": 53 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Sjöberg and Cantu were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cantu", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Sjöberg", + "start_position": 49, + "end_position": 56 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "In Iran they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Trevor Szathmári points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Trevor Szathmári", + "start_position": 131, + "end_position": 147 + }, + { + "entity_type": "LOCATION", + "entity_value": "Iran", + "start_position": 3, + "end_position": 7 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "Lori Gairbekov\n\n52 Stubben 149\n Suite 947\n KONGSVINGER\n Sudan 87051", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "87051", + "start_position": 62, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "Sudan", + "start_position": 56, + "end_position": 61 + }, + { + "entity_type": "LOCATION", + "entity_value": "KONGSVINGER", + "start_position": 43, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 947", + "start_position": 32, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Stubben 149", + "start_position": 19, + "end_position": 30 + }, + { + "entity_type": "ADDRESS", + "entity_value": "52", + "start_position": 16, + "end_position": 18 + }, + { + "entity_type": "PERSON", + "entity_value": "Lori Gairbekov", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4716379142021968 on my e-mail KristofferJohansen@einrot.com?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "KristofferJohansen@einrot.com", + "start_position": 85, + "end_position": 114 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716379142021968", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email LeenaSasi@armyspy.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "LeenaSasi@armyspy.com", + "start_position": 39, + "end_position": 60 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "It's like that since 2/25/1953", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "2/25/1953", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "62 47 Kogil Street\n Apt. 118\n BOOMI\n Cameroon 60647", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "60647", + "start_position": 46, + "end_position": 51 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cameroon", + "start_position": 37, + "end_position": 45 + }, + { + "entity_type": "LOCATION", + "entity_value": "BOOMI", + "start_position": 30, + "end_position": 35 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 118", + "start_position": 20, + "end_position": 28 + }, + { + "entity_type": "ADDRESS", + "entity_value": "47 Kogil Street", + "start_position": 3, + "end_position": 18 + }, + { + "entity_type": "ADDRESS", + "entity_value": "62", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "The Social Explorer office is at 37 Parva Domus 6896, Pesconuovo, Latvia", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "37 Parva Domus 6896, Pesconuovo, Latvia", + "start_position": 33, + "end_position": 72 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Social Explorer", + "start_position": 4, + "end_position": 19 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Why is Jesenko so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jesenko", + "start_position": 7, + "end_position": 14 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "Taylor Holinka listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Kathleen McKeon ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kathleen McKeon", + "start_position": 170, + "end_position": 185 + }, + { + "entity_type": "PERSON", + "entity_value": "Taylor Holinka", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "mr. freeman is a 50 year old man who grew up in lubbeek.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "lubbeek", + "start_position": 48, + "end_position": 55 + }, + { + "entity_type": "PERSON", + "entity_value": "freeman", + "start_position": 4, + "end_position": 11 + }, + { + "entity_type": "PERSON", + "entity_value": "mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "my website is http://www.visualtrips.hu/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://www.visualtrips.hu/", + "start_position": 14, + "end_position": 40 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "What's your credit card? 4485717090832176", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485717090832176", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "What's your credit card? 4485000692474295", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485000692474295", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "What is the limit for card 5458212250657274?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5458212250657274", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4532312107907949 on my e-mail BarteleExterkate@teleworm.us?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "BarteleExterkate@teleworm.us", + "start_position": 85, + "end_position": 113 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532312107907949", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "My card 4485757996306834 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485757996306834", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "You said your email is JulianGalvezCaballero@rhyta.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "JulianGalvezCaballero@rhyta.com", + "start_position": 23, + "end_position": 54 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "When: 1979-05-16 11:28:01\nWhere: Limont Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Limont", + "start_position": 33, + "end_position": 39 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1979-05-16 11:28:01", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "Please return to Eloise and 226 Thomas Avenue in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Eloise and 226 Thomas Avenue", + "start_position": 17, + "end_position": 45 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 73 448 266", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "73 448 266", + "start_position": 35, + "end_position": 45 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "How do I change my address to 00 2326 Parkdale Avenue Apt. 676 Hamilton ON for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "00 2326 Parkdale Avenue Apt. 676 Hamilton ON", + "start_position": 30, + "end_position": 74 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 14 3684 Court Street\n Suite 710\n Maryland Heights\n Ethiopia. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "14 3684 Court Street\n Suite 710\n Maryland Heights\n Ethiopia", + "start_position": 27, + "end_position": 86 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "Jamie Lundberg will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jamie Lundberg", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "Algeria was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Algeria", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Erin Mourik and starring Hansen", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Hansen", + "start_position": 85, + "end_position": 91 + }, + { + "entity_type": "PERSON", + "entity_value": "Erin Mourik", + "start_position": 60, + "end_position": 71 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Why is Charles so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Charles", + "start_position": 7, + "end_position": 14 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "Gréta is from Sas", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Sas", + "start_position": 14, + "end_position": 17 + }, + { + "entity_type": "PERSON", + "entity_value": "Gréta", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "They're not answering at 06-24312407", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "06-24312407", + "start_position": 25, + "end_position": 36 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "Belarus was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Belarus", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "What's your credit card? 5588236436213317", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5588236436213317", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "Jennifer is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jennifer", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "What's your credit card? 4716262391594689", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716262391594689", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "??? Christopher Hansen\n??? Jj Keller\n??? 41 Via dalla Staziun 87\n??? Apt. 033\n??? Dozwil\n??? Mongolia 34161", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "34161", + "start_position": 102, + "end_position": 107 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mongolia", + "start_position": 93, + "end_position": 101 + }, + { + "entity_type": "LOCATION", + "entity_value": "Dozwil", + "start_position": 82, + "end_position": 88 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 033", + "start_position": 69, + "end_position": 77 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via dalla Staziun 87", + "start_position": 44, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "41", + "start_position": 41, + "end_position": 43 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Jj Keller", + "start_position": 27, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Christopher Hansen", + "start_position": 4, + "end_position": 22 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Robert had given Chise his address: 64 Via Capo le Case 143, Calino", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Calino", + "start_position": 61, + "end_position": 67 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via Capo le Case 143", + "start_position": 39, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "64", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Chise", + "start_position": 17, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "What is the limit for card 5533453580309942?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5533453580309942", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "Who's coming to Costa Rica with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Costa Rica", + "start_position": 16, + "end_position": 26 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "I'm in Troubelice, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Troubelice", + "start_position": 7, + "end_position": 17 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "Have you been to a Robert Fukunaga concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Robert Fukunaga", + "start_position": 19, + "end_position": 34 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "The letter arrived at 07 Rua Forno 76\nSEINÄJOKI\n, SO\n 99746 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "07 Rua Forno 76\nSEINÄJOKI\n, SO\n 99746", + "start_position": 22, + "end_position": 59 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "Matthew Reumer, the Civil drafter, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Civil drafter", + "start_position": 20, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Matthew Reumer", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "The address of Boston Consulting Group is 12 Drangahrauni 3 Apt. 460, Lady Frere, Colombia 05833", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "12 Drangahrauni 3 Apt. 460, Lady Frere, Colombia 05833", + "start_position": 42, + "end_position": 96 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Boston Consulting Group", + "start_position": 15, + "end_position": 38 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "is there a better crafted pop song on this list? norberg and smith were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "smith", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "norberg", + "start_position": 49, + "end_position": 56 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "Mr. Brian Berločnik\nCompendia Bioscience Life Technologies\n52 58 Machiton Scholis Chorophilakis\nSchuders\n, nan\n Bangladesh 71366\n078 6657 2626 office\n223-087-9502 fax\n(764)722-5949 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(764)722-5949", + "start_position": 167, + "end_position": 180 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "223-087-9502", + "start_position": 150, + "end_position": 162 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "078 6657 2626", + "start_position": 129, + "end_position": 142 + }, + { + "entity_type": "ADDRESS", + "entity_value": "52 58 Machiton Scholis Chorophilakis\nSchuders\n, nan\n Bangladesh 71366", + "start_position": 59, + "end_position": 128 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Compendia Bioscience Life Technologies", + "start_position": 20, + "end_position": 58 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr. Brian Berločnik", + "start_position": 0, + "end_position": 19 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 40 Rue Dielhère 446 Suite 976 Ramskapelle Iraq", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "40 Rue Dielhère 446 Suite 976 Ramskapelle Iraq", + "start_position": 47, + "end_position": 93 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "The Fastcase office is at 96 Hausergasse 59 Apt. 787, Colle Di Tora, El Salvador 25900", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "96 Hausergasse 59 Apt. 787, Colle Di Tora, El Salvador 25900", + "start_position": 26, + "end_position": 86 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Fastcase", + "start_position": 4, + "end_position": 12 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Here's my SSN: 311-95-9973", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "311-95-9973", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "unlike the söderberg novel, it's not about necrophilia. what it is about, i suppose is anyone's guess. a brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "söderberg", + "start_position": 11, + "end_position": 20 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "how can i request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "What's your email? LarsWiik@jourrapide.com", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "LarsWiik@jourrapide.com", + "start_position": 19, + "end_position": 42 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "Hi Romilda, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB69PMNJ18913943430745", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB69PMNJ18913943430745", + "start_position": 99, + "end_position": 121 + }, + { + "entity_type": "PERSON", + "entity_value": "Romilda", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "the morningstar inc. office is at 58 2347 lauzon parkway\ncite el wafa\n, 81\n 73333", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "58 2347 lauzon parkway\ncite el wafa\n, 81\n 73333", + "start_position": 34, + "end_position": 81 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "morningstar inc.", + "start_position": 4, + "end_position": 20 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "What's your credit card? 5147531931841230", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5147531931841230", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to Unit 8411 Box 3596\nDPO AP 34698", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 8411 Box 3596\nDPO AP 34698", + "start_position": 26, + "end_position": 57 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "In Hungary they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Natasha Bergamaschi points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Natasha Bergamaschi", + "start_position": 134, + "end_position": 153 + }, + { + "entity_type": "LOCATION", + "entity_value": "Hungary", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: Ries and Κασνέτη 290, and 98 Tylova 1036, Recco, Guyana", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "98 Tylova 1036, Recco, Guyana", + "start_position": 69, + "end_position": 98 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Ries and Κασνέτη 290", + "start_position": 43, + "end_position": 63 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "Hello, this is Mr. Derek Crnić. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Derek Crnić", + "start_position": 19, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "They had 6: Elizabeth, Anna, Robert, Nicholas, Nicole and Eric.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Eric", + "start_position": 58, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Nicole", + "start_position": 47, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Nicholas", + "start_position": 37, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert", + "start_position": 29, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Anna", + "start_position": 23, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Elizabeth", + "start_position": 12, + "end_position": 21 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 5482847792016693 on my e-mail BardurHartvigsson@teleworm.us?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "BardurHartvigsson@teleworm.us", + "start_position": 85, + "end_position": 114 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5482847792016693", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "Oline is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Oline", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "Boaz is from Politify", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Politify", + "start_position": 13, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Boaz", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "Intelius\n\nUnit 4818 Box 0262\nDPO AA 65303", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 4818 Box 0262\nDPO AA 65303", + "start_position": 10, + "end_position": 41 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Intelius", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Mr. Rodriguez is a 50 year old man who grew up in Dornberk.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Dornberk", + "start_position": 50, + "end_position": 58 + }, + { + "entity_type": "PERSON", + "entity_value": "Rodriguez", + "start_position": 4, + "end_position": 13 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "Follow up with Madison Boyes in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Madison Boyes", + "start_position": 15, + "end_position": 28 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "Have you been to a Sabrina Magnusson concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sabrina Magnusson", + "start_position": 19, + "end_position": 36 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "Hi Danival, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB09YRHY41966356777071", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB09YRHY41966356777071", + "start_position": 99, + "end_position": 121 + }, + { + "entity_type": "PERSON", + "entity_value": "Danival", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "Meet me at Carry van Bruggenweg 77 Halkoaho Street\n Apt. 977\n Assen\n Japan 00436", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Carry van Bruggenweg 77 Halkoaho Street\n Apt. 977\n Assen\n Japan 00436", + "start_position": 11, + "end_position": 80 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "Hi Natalie, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB23JERQ22633960477146", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB23JERQ22633960477146", + "start_position": 99, + "end_position": 121 + }, + { + "entity_type": "PERSON", + "entity_value": "Natalie", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "What's your credit card? 5197692264231040", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5197692264231040", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "The Jones, Mitchell and Williams office is at 87 R Nossa Senhora Graça 75 Apt. 434 Jusam PO", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "87 R Nossa Senhora Graça 75 Apt. 434 Jusam PO", + "start_position": 46, + "end_position": 91 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Jones, Mitchell and Williams", + "start_position": 4, + "end_position": 32 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Roksana spent a year at Solarlist as the assistant to Robert Azevedo, and the following year at Billguard in San Giovanni Di Casarsa, which later became Liquid Robotics in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Liquid Robotics", + "start_position": 153, + "end_position": 168 + }, + { + "entity_type": "LOCATION", + "entity_value": "San Giovanni Di Casarsa", + "start_position": 109, + "end_position": 132 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Billguard", + "start_position": 96, + "end_position": 105 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert Azevedo", + "start_position": 54, + "end_position": 68 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Solarlist", + "start_position": 24, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Roksana", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "What's your email? GregKKerr@fleckens.hu", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "GregKKerr@fleckens.hu", + "start_position": 19, + "end_position": 40 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "You said your email is SzollosBoriska@jourrapide.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "SzollosBoriska@jourrapide.com", + "start_position": 23, + "end_position": 52 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "a tribute to lauren ilić ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "lauren ilić", + "start_position": 13, + "end_position": 24 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "excuse me, sir bot, but i really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "We'll meet Thursday at Solarlist, 04 55 Halsey Road, HAYBOROUGH", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "HAYBOROUGH", + "start_position": 53, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "55 Halsey Road", + "start_position": 37, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "04", + "start_position": 34, + "end_position": 36 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Solarlist", + "start_position": 23, + "end_position": 32 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Thursday", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "The Mclaughlin Ltd. office is at 38 73 Rue Ibn Al Khatib, St Catharines, Greece", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "38 73 Rue Ibn Al Khatib, St Catharines, Greece", + "start_position": 33, + "end_position": 79 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Mclaughlin Ltd.", + "start_position": 4, + "end_position": 19 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "What's your email? SaidakhmadGairbekov@dayrep.com", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "SaidakhmadGairbekov@dayrep.com", + "start_position": 19, + "end_position": 49 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "Ingþór is from Business Monitor International", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Business Monitor International", + "start_position": 15, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Ingþór", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "My credit card 4929697010226317 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929697010226317", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in 36 29 Hornsey Road\n Apt. 391\n Melrose\n Guinea", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "36 29 Hornsey Road\n Apt. 391\n Melrose\n Guinea", + "start_position": 132, + "end_position": 177 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "During the 1990s, Innovest Systems invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Innovest Systems", + "start_position": 18, + "end_position": 34 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Carl Berecz", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carl Berecz", + "start_position": 43, + "end_position": 54 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "My card 4929834911424945 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929834911424945", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "card number 5491723440151571 is lost, can you please send a new one to 07 Celso Emilio Ferreiro 23, Selwyn Heights, Denmark? I am in Larnaka for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Larnaka", + "start_position": 133, + "end_position": 140 + }, + { + "entity_type": "ADDRESS", + "entity_value": "07 Celso Emilio Ferreiro 23, Selwyn Heights, Denmark", + "start_position": 71, + "end_position": 123 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5491723440151571", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 74 Μεγάλη Άμμος 184 Apt. 732 ΠΑΦΟΣ PA", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "74 Μεγάλη Άμμος 184 Apt. 732 ΠΑΦΟΣ PA", + "start_position": 26, + "end_position": 63 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "I have lost my card 4556280305103812. Could you please block my credit card ASAP ? My name is Diana Iversen.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Diana Iversen", + "start_position": 94, + "end_position": 107 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556280305103812", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "My name is Nunzia", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nunzia", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "The Isabel Rolc version recorded for Thomas, Holt and Myers became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Thomas, Holt and Myers", + "start_position": 37, + "end_position": 59 + }, + { + "entity_type": "PERSON", + "entity_value": "Isabel Rolc", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 90 Ártún 55 Apt. 352 Reykjavík nan", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "90 Ártún 55 Apt. 352 Reykjavík nan", + "start_position": 47, + "end_position": 81 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "My driver's license number is 425700624", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "425700624", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Dr. Christopher Schmitt?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christopher Schmitt", + "start_position": 88, + "end_position": 107 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "Name: Jessica Salómonsson\nAddress: 95 96 Hexham Road\nHaldenstein, nan 37659", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "95 96 Hexham Road\nHaldenstein, nan 37659", + "start_position": 42, + "end_position": 82 + }, + { + "entity_type": "PERSON", + "entity_value": "Jessica Salómonsson", + "start_position": 9, + "end_position": 28 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Kevin Lamovec's Cautionary Tales. Is there a better example of unbridled creativity than early Morishita?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Morishita", + "start_position": 219, + "end_position": 228 + }, + { + "entity_type": "PERSON", + "entity_value": "Kevin Lamovec", + "start_position": 124, + "end_position": 137 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 4/16/1999", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "4/16/1999", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to PSC 8950, Box 4847\nAPO AP 62737", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 8950, Box 4847\nAPO AP 62737", + "start_position": 26, + "end_position": 57 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "The address of Relationship Science is USNS Márquez\nFPO AP 08653", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNS Márquez\nFPO AP 08653", + "start_position": 39, + "end_position": 64 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Relationship Science", + "start_position": 15, + "end_position": 35 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": ">Kimberly Brandt\n>Recipal\n>Robert Zemanová\n>27 Adrianalaan 62\n>Suite 624\n>Rotterdam\n>Bahrain 28587", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "28587", + "start_position": 93, + "end_position": 98 + }, + { + "entity_type": "LOCATION", + "entity_value": "Bahrain", + "start_position": 85, + "end_position": 92 + }, + { + "entity_type": "LOCATION", + "entity_value": "Rotterdam", + "start_position": 74, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 624", + "start_position": 63, + "end_position": 72 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Adrianalaan 62", + "start_position": 47, + "end_position": 61 + }, + { + "entity_type": "ADDRESS", + "entity_value": "27", + "start_position": 44, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert Zemanová", + "start_position": 27, + "end_position": 42 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Recipal", + "start_position": 18, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Kimberly Brandt", + "start_position": 1, + "end_position": 16 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "Who's coming to Fiji with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Fiji", + "start_position": 16, + "end_position": 20 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "in belarus they have company songs, musical expressions of employee loyalty sung by salarymen. unfortunately, as regular rr commenter anna bizier points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "anna bizier", + "start_position": 134, + "end_position": 145 + }, + { + "entity_type": "LOCATION", + "entity_value": "belarus", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "Please update the billing address with 04 Õli 68\n Apt. 983\n Himmiste\n Thailand for this card: 4916711412905603", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916711412905603", + "start_position": 94, + "end_position": 110 + }, + { + "entity_type": "ADDRESS", + "entity_value": "04 Õli 68\n Apt. 983\n Himmiste\n Thailand", + "start_position": 39, + "end_position": 78 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "She was born on 8/8/1944. Her maiden name is Koupil", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Koupil", + "start_position": 45, + "end_position": 51 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "8/8/1944", + "start_position": 16, + "end_position": 24 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "My zip code is 49865", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "49865", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "Aki shouted at Amanda: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Amanda", + "start_position": 15, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Aki", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Lori Švéda and starring Lafontaine", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lafontaine", + "start_position": 84, + "end_position": 94 + }, + { + "entity_type": "PERSON", + "entity_value": "Lori Švéda", + "start_position": 60, + "end_position": 70 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "alba is very reliable. you can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "alba", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Oamaru Central this morning from Egypt.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Egypt", + "start_position": 63, + "end_position": 68 + }, + { + "entity_type": "LOCATION", + "entity_value": "Oamaru Central", + "start_position": 30, + "end_position": 44 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 5407252975001913 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5407252975001913", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Sheila Dvořáčková", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sheila Dvořáčková", + "start_position": 43, + "end_position": 60 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at ΛΕΥΚΩΣΙΑ this morning from Indonesia.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Indonesia", + "start_position": 57, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΛΕΥΚΩΣΙΑ", + "start_position": 30, + "end_position": 38 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "is there a better crafted pop song on this list? quirion and robinson were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "robinson", + "start_position": 61, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "quirion", + "start_position": 49, + "end_position": 56 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "96 ul. Posejdona 90\n Apt. 679\n Zielona Góra\n Taiwan 71988", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "71988", + "start_position": 52, + "end_position": 57 + }, + { + "entity_type": "LOCATION", + "entity_value": "Taiwan", + "start_position": 45, + "end_position": 51 + }, + { + "entity_type": "LOCATION", + "entity_value": "Zielona Góra", + "start_position": 31, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 679", + "start_position": 21, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "ul. Posejdona 90", + "start_position": 3, + "end_position": 19 + }, + { + "entity_type": "ADDRESS", + "entity_value": "96", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "What is the limit for card 5293025225984832?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5293025225984832", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add Alexis Denisov as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Alexis Denisov", + "start_position": 46, + "end_position": 60 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "She was born on 6/22/1979. Her maiden name is Kadyrov", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kadyrov", + "start_position": 46, + "end_position": 53 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "6/22/1979", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in Wrocław, Mclaughlin Ltd. is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Mclaughlin Ltd.", + "start_position": 38, + "end_position": 53 + }, + { + "entity_type": "LOCATION", + "entity_value": "Wrocław", + "start_position": 29, + "end_position": 36 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "follow up with tracy wiśniewska in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "tracy wiśniewska", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "The letter arrived at 92 C/ Manuel Iradier 77\nParaparaumu\n, nan\n 50882 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "92 C/ Manuel Iradier 77\nParaparaumu\n, nan\n 50882", + "start_position": 22, + "end_position": 70 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "Walk Score\n\nthe corner of 149 William Street and Çiftçi Street", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of 149 William Street and Çiftçi Street", + "start_position": 12, + "end_position": 62 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Walk Score", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Maybe it's under Dana Turgeon", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Dana Turgeon", + "start_position": 17, + "end_position": 29 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Kimberly Kovačić).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kimberly Kovačić", + "start_position": 58, + "end_position": 74 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "Dr. Peter Garcia listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Nicholas Kováčová ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nicholas Kováčová", + "start_position": 172, + "end_position": 189 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr. Peter Garcia", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "Adobe Digital Government\n\nMille and Truhlářská 996", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Mille and Truhlářská 996", + "start_position": 26, + "end_position": 50 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Adobe Digital Government", + "start_position": 0, + "end_position": 24 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "Michelle Szathmáry\n\n59 Delta 116\n Apt. 879\n Huizen\n Oman 04763", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "04763", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "LOCATION", + "entity_value": "Oman", + "start_position": 52, + "end_position": 56 + }, + { + "entity_type": "LOCATION", + "entity_value": "Huizen", + "start_position": 44, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 879", + "start_position": 34, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Delta 116", + "start_position": 23, + "end_position": 32 + }, + { + "entity_type": "ADDRESS", + "entity_value": "59", + "start_position": 20, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Michelle Szathmáry", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "Mark Muslija\n\n99 Colonia Ofir 9881\n Apt. 139\n San Luis\n Chile 89825\n9885 1152-Office\\,001-755-329-4431-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-755-329-4431", + "start_position": 86, + "end_position": 102 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "9885 1152", + "start_position": 68, + "end_position": 77 + }, + { + "entity_type": "ADDRESS", + "entity_value": "89825", + "start_position": 62, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "Chile", + "start_position": 56, + "end_position": 61 + }, + { + "entity_type": "LOCATION", + "entity_value": "San Luis", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 139", + "start_position": 36, + "end_position": 44 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Colonia Ofir 9881", + "start_position": 17, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "99", + "start_position": 14, + "end_position": 16 + }, + { + "entity_type": "PERSON", + "entity_value": "Mark Muslija", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "The letter arrived at 174 Union Street Mahler Street\n Suite 781\n Fairfield\n Liechtenstein 33775 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "174 Union Street Mahler Street\n Suite 781\n Fairfield\n Liechtenstein 33775", + "start_position": 22, + "end_position": 95 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "i want to add julie novák as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "julie novák", + "start_position": 14, + "end_position": 25 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Miss Ashley Kvamme Apt. 722 20 40 rue Victor Hugo\nCONFLANS-SAINTE-HONORINE IL 92507", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "92507", + "start_position": 78, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "IL", + "start_position": 75, + "end_position": 77 + }, + { + "entity_type": "LOCATION", + "entity_value": "CONFLANS-SAINTE-HONORINE", + "start_position": 50, + "end_position": 74 + }, + { + "entity_type": "ADDRESS", + "entity_value": "40 rue Victor Hugo", + "start_position": 31, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "20", + "start_position": 28, + "end_position": 30 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 722", + "start_position": 19, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Ashley Kvamme", + "start_position": 5, + "end_position": 18 + }, + { + "entity_type": "PREFIX", + "entity_value": "Miss", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "I'm originally from Malaysia", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Malaysia", + "start_position": 20, + "end_position": 28 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "The letter arrived at 11 Rookopli 96 Apt. 478 Uralaane Valgamaa last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "11 Rookopli 96 Apt. 478 Uralaane Valgamaa", + "start_position": 22, + "end_position": 63 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "Matthew Sedej, the Outside order clerk, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Outside order clerk", + "start_position": 19, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Matthew Sedej", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "The Ernest Takuda version recorded for American Red Ball Movers became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "American Red Ball Movers", + "start_position": 39, + "end_position": 63 + }, + { + "entity_type": "PERSON", + "entity_value": "Ernest Takuda", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "\\\"I\\'m glad to hear that Venezuela is moving in that direction,\\\" says Vedzizhev.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Vedzizhev", + "start_position": 71, + "end_position": 80 + }, + { + "entity_type": "LOCATION", + "entity_value": "Venezuela", + "start_position": 25, + "end_position": 34 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 72 76 Avenue Mohamed Salah Gafsia\n Suite 388\n Oued Esseder\n Mexico 98939", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "72 76 Avenue Mohamed Salah Gafsia\n Suite 388\n Oued Esseder\n Mexico 98939", + "start_position": 47, + "end_position": 119 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "Maybe it's under Cindy Traustason", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cindy Traustason", + "start_position": 17, + "end_position": 33 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "Please return to 51 Rostsestraat 222\nMakareao, nan 57132 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "51 Rostsestraat 222\nMakareao, nan 57132", + "start_position": 17, + "end_position": 56 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "Zama is from Civinomics", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Civinomics", + "start_position": 13, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Zama", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "Date: 2007-03-23 18:43:36\nName: Jason Hartmann\nPhone: 678-777-1600", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "678-777-1600", + "start_position": 54, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Jason Hartmann", + "start_position": 32, + "end_position": 46 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2007-03-23 18:43:36", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "Please update the billing address with PSC 9236, Box 1684\nAPO AP 02137 for this card: 4532071216424424", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532071216424424", + "start_position": 86, + "end_position": 102 + }, + { + "entity_type": "ADDRESS", + "entity_value": "PSC 9236, Box 1684\nAPO AP 02137", + "start_position": 39, + "end_position": 70 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "how do i open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "Patricia is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Patricia", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "Albert shouted at Renee: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Renee", + "start_position": 18, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Albert", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Kevin Berková's Cautionary Tales. Is there a better example of unbridled creativity than early Gairbekov?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Gairbekov", + "start_position": 219, + "end_position": 228 + }, + { + "entity_type": "PERSON", + "entity_value": "Kevin Berková", + "start_position": 124, + "end_position": 137 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "Follow up with Lisa Philippen in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lisa Philippen", + "start_position": 15, + "end_position": 29 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "Please return to Malou and Λεωφόρος Β. Αλεξάνδρου 189 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Malou and Λεωφόρος Β. Αλεξάνδρου 189", + "start_position": 17, + "end_position": 53 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "What's your credit card? 5207171328063010", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5207171328063010", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "It's like that since 2/10/1970", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "2/10/1970", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 5498878581177505 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5498878581177505", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "The Usaa Group office is at 51 99 Balsham Road\nKulusuk\n, SM\n 84850", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "51 99 Balsham Road\nKulusuk\n, SM\n 84850", + "start_position": 28, + "end_position": 66 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Usaa Group", + "start_position": 4, + "end_position": 14 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "His social security number is 638-18-6468", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "638-18-6468", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: Király u. 15. Ástráðsson Street\n Suite 001\n Gyopárosfürdô\n Nepal 92990", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Király u. 15. Ástráðsson Street\n Suite 001\n Gyopárosfürdô\n Nepal 92990", + "start_position": 63, + "end_position": 133 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "My card 4539364421051774 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539364421051774", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "Laos was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Laos", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "In Saudi Arabia they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Virginia Dratchev points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Virginia Dratchev", + "start_position": 139, + "end_position": 156 + }, + { + "entity_type": "LOCATION", + "entity_value": "Saudi Arabia", + "start_position": 3, + "end_position": 15 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "C'mon, sing it with me: \"You picked a fine time to leave me Guy, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Guy", + "start_position": 60, + "end_position": 63 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": "You can tell Tokie was a huge Anna Ferreira fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Anna Ferreira", + "start_position": 30, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Tokie", + "start_position": 13, + "end_position": 18 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "I'm originally from Somalia", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Somalia", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "My friend lives in Hueb", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Hueb", + "start_position": 19, + "end_position": 23 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 11/25/1959", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "11/25/1959", + "start_position": 40, + "end_position": 50 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Cynthia Ottarsdóttir's Cautionary Tales. Is there a better example of unbridled creativity than early Mikaelsen?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mikaelsen", + "start_position": 226, + "end_position": 235 + }, + { + "entity_type": "PERSON", + "entity_value": "Cynthia Ottarsdóttir", + "start_position": 124, + "end_position": 144 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "You said your email is HarrisonLeehy@gustr.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "HarrisonLeehy@gustr.com", + "start_position": 23, + "end_position": 46 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "??? Margaret Ćosić PhD\n??? 23 And Me\n??? 74 Västerviksgatan 2\n??? Suite 052\n??? MORJÄRV\n??? Iceland 18487", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "18487", + "start_position": 100, + "end_position": 105 + }, + { + "entity_type": "LOCATION", + "entity_value": "Iceland", + "start_position": 92, + "end_position": 99 + }, + { + "entity_type": "LOCATION", + "entity_value": "MORJÄRV", + "start_position": 80, + "end_position": 87 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 052", + "start_position": 66, + "end_position": 75 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Västerviksgatan 2", + "start_position": 44, + "end_position": 61 + }, + { + "entity_type": "ADDRESS", + "entity_value": "74", + "start_position": 41, + "end_position": 43 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "23 And Me", + "start_position": 27, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Margaret Ćosić PhD", + "start_position": 4, + "end_position": 22 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Vittore, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Vittore", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "My name is Leidy", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Leidy", + "start_position": 11, + "end_position": 16 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "Hello, this is Dr. Rodney Radolič. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rodney Radolič", + "start_position": 19, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "When: 1992-02-20 22:50:54\nWhere: Moravský Beroun Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Moravský Beroun", + "start_position": 33, + "end_position": 48 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1992-02-20 22:50:54", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "??? Michael Bazhaev\n??? Google Maps\n??? 27 29 Hornsey Road\n??? Apt. 566\n??? Melrose\n??? Tuvalu 25731", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "25731", + "start_position": 95, + "end_position": 100 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tuvalu", + "start_position": 88, + "end_position": 94 + }, + { + "entity_type": "LOCATION", + "entity_value": "Melrose", + "start_position": 76, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 566", + "start_position": 63, + "end_position": 71 + }, + { + "entity_type": "ADDRESS", + "entity_value": "29 Hornsey Road", + "start_position": 43, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "27", + "start_position": 40, + "end_position": 42 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Google Maps", + "start_position": 24, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Michael Bazhaev", + "start_position": 4, + "end_position": 19 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "She moved here from Equatorial Guinea", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Equatorial Guinea", + "start_position": 20, + "end_position": 37 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "01 Luite tee 71\n Suite 824\n Äksi\n Costa Rica 89215", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "89215", + "start_position": 45, + "end_position": 50 + }, + { + "entity_type": "LOCATION", + "entity_value": "Costa Rica", + "start_position": 34, + "end_position": 44 + }, + { + "entity_type": "LOCATION", + "entity_value": "Äksi", + "start_position": 28, + "end_position": 32 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 824", + "start_position": 17, + "end_position": 26 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Luite tee 71", + "start_position": 3, + "end_position": 15 + }, + { + "entity_type": "ADDRESS", + "entity_value": "01", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Hi Torben, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB13PLUO53932440748460", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB13PLUO53932440748460", + "start_position": 98, + "end_position": 120 + }, + { + "entity_type": "PERSON", + "entity_value": "Torben", + "start_position": 3, + "end_position": 9 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Teresa Walker's Cautionary Tales. Is there a better example of unbridled creativity than early Bergsveinsson?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Bergsveinsson", + "start_position": 219, + "end_position": 232 + }, + { + "entity_type": "PERSON", + "entity_value": "Teresa Walker", + "start_position": 124, + "end_position": 137 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "The address of Drake PLC is 57 229 St Marys Avenue\nUue-Saaluse, VR 12412", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "57 229 St Marys Avenue\nUue-Saaluse, VR 12412", + "start_position": 28, + "end_position": 72 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Drake PLC", + "start_position": 15, + "end_position": 24 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "here's my ssn: 447-60-5371", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "447-60-5371", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to Eyrarodda 6 Mahler Street\n Apt. 183\n Flateyri\n Poland 02706", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Eyrarodda 6 Mahler Street\n Apt. 183\n Flateyri\n Poland 02706", + "start_position": 26, + "end_position": 85 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Mary Ólafsdóttir, the Railroad switch operator, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Railroad switch operator", + "start_position": 22, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Mary Ólafsdóttir", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "Andrea Nijeboer\nExperian\n65 Alt Reinickendorf 86\nCandeias\n, BA\n People's Republic of China 57006\n96 228011 office\n001-846-853-9089x92556 fax\n2813882583 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "2813882583", + "start_position": 141, + "end_position": 151 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-846-853-9089x92556", + "start_position": 114, + "end_position": 136 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "96 228011", + "start_position": 97, + "end_position": 106 + }, + { + "entity_type": "ADDRESS", + "entity_value": "65 Alt Reinickendorf 86\nCandeias\n, BA\n People's Republic of China 57006", + "start_position": 25, + "end_position": 96 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Experian", + "start_position": 16, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrea Nijeboer", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Laura Lima", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Laura Lima", + "start_position": 58, + "end_position": 68 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "I'm originally from Croatia", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Croatia", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Maybe it's under Shannon Linden", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Shannon Linden", + "start_position": 17, + "end_position": 31 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "My name is Elina", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Elina", + "start_position": 11, + "end_position": 16 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "I'm originally from Iceland", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Iceland", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Paul is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Paul", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "Jeffrey Napolitano\n\n91 Vila Miguel Tavares 1160\n Suite 616\n Fortaleza\n Togo 95522\n(85) 5986-8343-Office\\,(790)091-7442-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(790)091-7442", + "start_position": 105, + "end_position": 118 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(85) 5986-8343", + "start_position": 82, + "end_position": 96 + }, + { + "entity_type": "ADDRESS", + "entity_value": "95522", + "start_position": 76, + "end_position": 81 + }, + { + "entity_type": "LOCATION", + "entity_value": "Togo", + "start_position": 71, + "end_position": 75 + }, + { + "entity_type": "LOCATION", + "entity_value": "Fortaleza", + "start_position": 60, + "end_position": 69 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 616", + "start_position": 49, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Vila Miguel Tavares 1160", + "start_position": 23, + "end_position": 47 + }, + { + "entity_type": "ADDRESS", + "entity_value": "91", + "start_position": 20, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Jeffrey Napolitano", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "What's your name? Rebecca Gairbekov", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rebecca Gairbekov", + "start_position": 18, + "end_position": 35 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "Sheila is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sheila", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "Gayane shouted at Jerry: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jerry", + "start_position": 18, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Gayane", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "The address of Nucivic is Herman and 1324 Mosman Rd", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Herman and 1324 Mosman Rd", + "start_position": 26, + "end_position": 51 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Nucivic", + "start_position": 15, + "end_position": 22 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 3/31/1982", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "3/31/1982", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "his social security number is 312-36-7379", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "312-36-7379", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "nicholas muir listed his top 20 songs for entertainment weekly and had the balls to list this song at #15. (what did he put at #1 you ask? answer:\"tube snake boogie\" by christina schiavone ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "christina schiavone", + "start_position": 169, + "end_position": 188 + }, + { + "entity_type": "PERSON", + "entity_value": "nicholas muir", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to Jäämerentie 89 Bjerke Street\n Apt. 267\n PETÄJÄVESI\n Japan 26218. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Jäämerentie 89 Bjerke Street\n Apt. 267\n PETÄJÄVESI\n Japan 26218", + "start_position": 27, + "end_position": 90 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "What's your name? Emily Janeba", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Emily Janeba", + "start_position": 18, + "end_position": 30 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "My zip code is 20547", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "20547", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Cynthia Vasala's Cautionary Tales. Is there a better example of unbridled creativity than early Andreassen?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Andreassen", + "start_position": 220, + "end_position": 230 + }, + { + "entity_type": "PERSON", + "entity_value": "Cynthia Vasala", + "start_position": 124, + "end_position": 138 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "Ingrid shouted at Cheryl: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cheryl", + "start_position": 18, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Ingrid", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "??? Christopher Gábor\n??? Poncho App\n??? 32 Rua Katumi Kida 435\n??? Suite 741\n??? São Paulo\n??? Cameroon 28272", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "28272", + "start_position": 105, + "end_position": 110 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cameroon", + "start_position": 96, + "end_position": 104 + }, + { + "entity_type": "LOCATION", + "entity_value": "São Paulo", + "start_position": 82, + "end_position": 91 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 741", + "start_position": 68, + "end_position": 77 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Rua Katumi Kida 435", + "start_position": 44, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "32", + "start_position": 41, + "end_position": 43 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Poncho App", + "start_position": 26, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Christopher Gábor", + "start_position": 4, + "end_position": 21 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Hi Thelma, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB56JONO75308970422454", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB56JONO75308970422454", + "start_position": 98, + "end_position": 120 + }, + { + "entity_type": "PERSON", + "entity_value": "Thelma", + "start_position": 3, + "end_position": 9 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "She named him Oscar", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Oscar", + "start_position": 14, + "end_position": 19 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "please tell me your date of birth. it's 10/3/1948", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "10/3/1948", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "Brian is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brian", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Ookubo is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ookubo", + "start_position": 23, + "end_position": 29 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "My driver's license number is 281211981", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "281211981", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "sometimes people call me philipp", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "philipp", + "start_position": 25, + "end_position": 32 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Nicholas Gottschalk", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nicholas Gottschalk", + "start_position": 58, + "end_position": 77 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "My name is Ann Þórólfsdóttir but everyone calls me Kateřina", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kateřina", + "start_position": 51, + "end_position": 59 + }, + { + "entity_type": "PERSON", + "entity_value": "Ann Þórólfsdóttir", + "start_position": 11, + "end_position": 28 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to PSC 4457, Box 7534\nAPO AP 95145", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 4457, Box 7534\nAPO AP 95145", + "start_position": 26, + "end_position": 57 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Sigursteinsson and Dean were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Dean", + "start_position": 68, + "end_position": 72 + }, + { + "entity_type": "PERSON", + "entity_value": "Sigursteinsson", + "start_position": 49, + "end_position": 63 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "The David Schaefer version recorded for Mayer-Watkins became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Mayer-Watkins", + "start_position": 40, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "David Schaefer", + "start_position": 4, + "end_position": 18 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "How do I change my address to 14 70 Omonia Square Suite 685, Quebec, Bosnia and Herzegovina 78990 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "14 70 Omonia Square Suite 685, Quebec, Bosnia and Herzegovina 78990", + "start_position": 30, + "end_position": 97 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "As promised, here's Konrad's address:\n\n39 27 Alkyon Avenue\nTAUCHERS, nan 02614", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "39 27 Alkyon Avenue\nTAUCHERS, nan 02614", + "start_position": 39, + "end_position": 78 + }, + { + "entity_type": "PERSON", + "entity_value": "Konrad", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "My card 5166111184284168 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5166111184284168", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "When: 1997-02-21 14:02:26\nWhere: St Hyacinthe Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "St Hyacinthe", + "start_position": 33, + "end_position": 45 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1997-02-21 14:02:26", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "My zip code is 71382", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "71382", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "Rachel Magnusson, the Construction equipment technician, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Construction equipment technician", + "start_position": 22, + "end_position": 55 + }, + { + "entity_type": "PERSON", + "entity_value": "Rachel Magnusson", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: 47 Via Nazario Sauro 112, Ceské Budejovice 6, Kazakhstan, and 52 Via del Pontiere 101\nGRUB\n, NO\n Tonga 49923", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "52 Via del Pontiere 101\nGRUB\n, NO\n Tonga 49923", + "start_position": 105, + "end_position": 151 + }, + { + "entity_type": "ADDRESS", + "entity_value": "47 Via Nazario Sauro 112, Ceské Budejovice 6, Kazakhstan", + "start_position": 43, + "end_position": 99 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "\\\"i\\'m glad to hear that nauru is moving in that direction,\\\" says björklund.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "björklund", + "start_position": 67, + "end_position": 76 + }, + { + "entity_type": "LOCATION", + "entity_value": "nauru", + "start_position": 25, + "end_position": 30 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "You can tell Rakel was a huge Sarah Maida fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sarah Maida", + "start_position": 30, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "Rakel", + "start_position": 13, + "end_position": 18 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "She was born on 1/27/1952. Her maiden name is Sergeyev", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sergeyev", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1/27/1952", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "The title refers to Bygget 91 street in ANNERSTAD. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Adams Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Adams Street", + "start_position": 197, + "end_position": 209 + }, + { + "entity_type": "LOCATION", + "entity_value": "ANNERSTAD", + "start_position": 40, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Bygget 91", + "start_position": 20, + "end_position": 29 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "What's your email? MelissaAlmeidaOliveira@cuvox.de", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "MelissaAlmeidaOliveira@cuvox.de", + "start_position": 19, + "end_position": 50 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in 18 Zona Estação 75, Rogers, Barbados", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "18 Zona Estação 75, Rogers, Barbados", + "start_position": 132, + "end_position": 168 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "What's your email? LeaMPetersen@teleworm.us", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "LeaMPetersen@teleworm.us", + "start_position": 19, + "end_position": 43 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "My card 5115922521155230 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5115922521155230", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "Please update the billing address with USS Napolitani\nFPO AP 70381 for this card: 4929042515010488", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929042515010488", + "start_position": 82, + "end_position": 98 + }, + { + "entity_type": "ADDRESS", + "entity_value": "USS Napolitani\nFPO AP 70381", + "start_position": 39, + "end_position": 66 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "Mr. Jacobson is a 50 year old man who grew up in Križe.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Križe", + "start_position": 49, + "end_position": 54 + }, + { + "entity_type": "PERSON", + "entity_value": "Jacobson", + "start_position": 4, + "end_position": 12 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "could i change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "??? Cindy Samoylova\n??? Adobe Digital Government\n??? 56 Linieweg 350\n??? Apt. 272\n??? Landelies\n??? Peru 66675", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66675", + "start_position": 105, + "end_position": 110 + }, + { + "entity_type": "LOCATION", + "entity_value": "Peru", + "start_position": 100, + "end_position": 104 + }, + { + "entity_type": "LOCATION", + "entity_value": "Landelies", + "start_position": 86, + "end_position": 95 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 272", + "start_position": 73, + "end_position": 81 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Linieweg 350", + "start_position": 56, + "end_position": 68 + }, + { + "entity_type": "ADDRESS", + "entity_value": "56", + "start_position": 53, + "end_position": 55 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Adobe Digital Government", + "start_position": 24, + "end_position": 48 + }, + { + "entity_type": "PERSON", + "entity_value": "Cindy Samoylova", + "start_position": 4, + "end_position": 19 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: Jindřich and 2914 184th Street", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Jindřich and 2914 184th Street", + "start_position": 63, + "end_position": 93 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "My name is Monika", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Monika", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "We moved here from Cite Essanaouber", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cite Essanaouber", + "start_position": 19, + "end_position": 35 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5339594898113371", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5339594898113371", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "The Megan Liberšar version recorded for Crowdanalytix became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Crowdanalytix", + "start_position": 40, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Megan Liberšar", + "start_position": 4, + "end_position": 18 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "The Jason Castro version recorded for Allianz became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Allianz", + "start_position": 38, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Jason Castro", + "start_position": 4, + "end_position": 16 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "my website is http://marketgadgets.co.za/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://marketgadgets.co.za/", + "start_position": 14, + "end_position": 41 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Mozambique, but Michael just has to get laid. Don't go to town, Timothy!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Timothy", + "start_position": 148, + "end_position": 155 + }, + { + "entity_type": "PERSON", + "entity_value": "Michael", + "start_position": 100, + "end_position": 107 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mozambique", + "start_position": 84, + "end_position": 94 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Matthew Neudorf and starring Martinez", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Martinez", + "start_position": 89, + "end_position": 97 + }, + { + "entity_type": "PERSON", + "entity_value": "Matthew Neudorf", + "start_position": 60, + "end_position": 75 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "What is the limit for card 5353410735290150?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5353410735290150", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Mozirje this morning from Finland.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Finland", + "start_position": 56, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mozirje", + "start_position": 30, + "end_position": 37 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 19 Ingelbrecht Knudssøns gate 222\n Suite 598\n OSLO\n Bangladesh", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "19 Ingelbrecht Knudssøns gate 222\n Suite 598\n OSLO\n Bangladesh", + "start_position": 63, + "end_position": 125 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "bot: what's the name on the account? user: heather pustivšek", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "heather pustivšek", + "start_position": 43, + "end_position": 60 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "my driver's license number is 341308170", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "341308170", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "I have lost my card 4539414808638337. Could you please block my credit card ASAP ? My name is Jenny Gibson.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jenny Gibson", + "start_position": 94, + "end_position": 106 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539414808638337", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Hi Thiago, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB42HRSI56613285431668", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB42HRSI56613285431668", + "start_position": 98, + "end_position": 120 + }, + { + "entity_type": "PERSON", + "entity_value": "Thiago", + "start_position": 3, + "end_position": 9 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to PSC 2905, Box 1278\nAPO AA 40674. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 2905, Box 1278\nAPO AA 40674", + "start_position": 27, + "end_position": 58 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "What's your credit card? 5211046220862038", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5211046220862038", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "During the 1990s, Bekins invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Bekins", + "start_position": 18, + "end_position": 24 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "I'm originally from Botswana", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Botswana", + "start_position": 20, + "end_position": 28 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Woźniak and Moore were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Moore", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Woźniak", + "start_position": 49, + "end_position": 56 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "As promised, here's Gregorina's address:\n\nLånglöt 44 Horký Street\n Suite 524\n NORSBORG\n Bahrain 43524", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Långlöt 44 Horký Street\n Suite 524\n NORSBORG\n Bahrain 43524", + "start_position": 42, + "end_position": 101 + }, + { + "entity_type": "PERSON", + "entity_value": "Gregorina", + "start_position": 20, + "end_position": 29 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Marek is from Gallup", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Gallup", + "start_position": 14, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Marek", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "Matthew Wiik listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Paul Siciliani ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Paul Siciliani", + "start_position": 168, + "end_position": 182 + }, + { + "entity_type": "PERSON", + "entity_value": "Matthew Wiik", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "His social security number is 184-99-8026", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "184-99-8026", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Here's my SSN: 378-07-9520", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "378-07-9520", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "She was born on 2/25/1998. Her maiden name is Ragnarsdóttir", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ragnarsdóttir", + "start_position": 46, + "end_position": 59 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2/25/1998", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "She moved here from Turkmenistan", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Turkmenistan", + "start_position": 20, + "end_position": 32 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Schiavone and Livingston were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Livingston", + "start_position": 63, + "end_position": 73 + }, + { + "entity_type": "PERSON", + "entity_value": "Schiavone", + "start_position": 49, + "end_position": 58 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "C'mon, sing it with me: \"You picked a fine time to leave me Michal, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michal", + "start_position": 60, + "end_position": 66 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": "card number 5448481454170763 is lost, can you please send a new one to 40 Via Bernardino Rota 130\nPõhara, PR 87548? I am in Mansilla de la Sierra for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Mansilla de la Sierra", + "start_position": 124, + "end_position": 145 + }, + { + "entity_type": "ADDRESS", + "entity_value": "40 Via Bernardino Rota 130\nPõhara, PR 87548", + "start_position": 71, + "end_position": 114 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5448481454170763", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "Justin Molnár\nMint\n12 Gralla 30 Suite 617, HELSINKI, Barbados 00336\n455 6186 office\n877-547-3967x793 fax\n(044)688-7538x8775 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(044)688-7538x8775", + "start_position": 105, + "end_position": 123 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "877-547-3967x793", + "start_position": 84, + "end_position": 100 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "455 6186", + "start_position": 68, + "end_position": 76 + }, + { + "entity_type": "ADDRESS", + "entity_value": "12 Gralla 30 Suite 617, HELSINKI, Barbados 00336", + "start_position": 19, + "end_position": 67 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Mint", + "start_position": 14, + "end_position": 18 + }, + { + "entity_type": "PERSON", + "entity_value": "Justin Molnár", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "have you been to a claudia nakajima concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "claudia nakajima", + "start_position": 19, + "end_position": 35 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city ROSSÖN: Department Of Better Technology, Hoover, Morris and Johnson and Open Data Nation. \"Don't feed me planned obsolescence,\" says Brandy Greece in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandy Greece", + "start_position": 265, + "end_position": 278 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Open Data Nation", + "start_position": 204, + "end_position": 220 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Hoover, Morris and Johnson", + "start_position": 173, + "end_position": 199 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Department Of Better Technology", + "start_position": 140, + "end_position": 171 + }, + { + "entity_type": "LOCATION", + "entity_value": "ROSSÖN", + "start_position": 132, + "end_position": 138 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Douglas Lundin\nRose, Turner and Thompson\n24 320 St Marys Rd\n Apt. 389\n Winnipeg\n Argentina\n083 445 2424 office\n(251)500-2136x739 fax\n(760)514-1109 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(760)514-1109", + "start_position": 133, + "end_position": 146 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(251)500-2136x739", + "start_position": 111, + "end_position": 128 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "083 445 2424", + "start_position": 91, + "end_position": 103 + }, + { + "entity_type": "ADDRESS", + "entity_value": "24 320 St Marys Rd\n Apt. 389\n Winnipeg\n Argentina", + "start_position": 41, + "end_position": 90 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Rose, Turner and Thompson", + "start_position": 15, + "end_position": 40 + }, + { + "entity_type": "PERSON", + "entity_value": "Douglas Lundin", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "Have you been to a Tracy Shcherbakov concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tracy Shcherbakov", + "start_position": 19, + "end_position": 36 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "she moved here from switzerland", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "switzerland", + "start_position": 20, + "end_position": 31 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "During the 1990s, Karmadata invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Karmadata", + "start_position": 18, + "end_position": 27 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "Why is Avtorhan so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Avtorhan", + "start_position": 7, + "end_position": 15 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "Bonnie Lafontaine\n\n21 Eriksbo Västergärde 98\n Apt. 573\n ANGERED\n\n Paraguay 81365", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "81365", + "start_position": 75, + "end_position": 80 + }, + { + "entity_type": "LOCATION", + "entity_value": "Paraguay", + "start_position": 66, + "end_position": 74 + }, + { + "entity_type": "LOCATION", + "entity_value": "ANGERED", + "start_position": 56, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 573", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Eriksbo Västergärde 98", + "start_position": 22, + "end_position": 44 + }, + { + "entity_type": "ADDRESS", + "entity_value": "21", + "start_position": 19, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Bonnie Lafontaine", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "Have you been to a Sierra DeRose concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sierra DeRose", + "start_position": 19, + "end_position": 32 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 5338825229705399", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5338825229705399", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "His social security number is 390-99-1671", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "390-99-1671", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "I have lost my card 4556795436818301. Could you please block my credit card ASAP ? My name is Omar Reynisson.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Omar Reynisson", + "start_position": 94, + "end_position": 108 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556795436818301", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4556031904757957 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556031904757957", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "could you please send me the last billed amount for cc 4485719811520957 on my e-mail tanjakuester@teleworm.us?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "tanjakuester@teleworm.us", + "start_position": 85, + "end_position": 109 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485719811520957", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "my name appears incorrectly on credit card statement could you please correct it to mr. larry lombardo?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "larry lombardo", + "start_position": 88, + "end_position": 102 + }, + { + "entity_type": "PERSON", + "entity_value": "mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 80 Gosposka ulica 61\nÚstí nad Labem 2\n, US\n Thailand 60136", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "80 Gosposka ulica 61\nÚstí nad Labem 2\n, US\n Thailand 60136", + "start_position": 47, + "end_position": 105 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "My credit card 4929948239489495 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929948239489495", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 12.92.149.211 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "12.92.149.211", + "start_position": 50, + "end_position": 63 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 4929116771500893", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929116771500893", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email ChristofferCBertelsen@fleckens.hu", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "ChristofferCBertelsen@fleckens.hu", + "start_position": 39, + "end_position": 72 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "Nicholas Lycett\n\n48 Αγ. Ανδρέα 34\n Apt. 932\n ΤΡΙΚΟΥΚΚΙΑ\n Mexico 33716\n25 833387-Office\\,001-432-815-4117-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-432-815-4117", + "start_position": 88, + "end_position": 104 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "25 833387", + "start_position": 70, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "33716", + "start_position": 64, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mexico", + "start_position": 57, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΤΡΙΚΟΥΚΚΙΑ", + "start_position": 45, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 932", + "start_position": 35, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Αγ. Ανδρέα 34", + "start_position": 20, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "48", + "start_position": 17, + "end_position": 19 + }, + { + "entity_type": "PERSON", + "entity_value": "Nicholas Lycett", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "We'll meet Friday at Kroll Bond Ratings Agency, 61 Wiesenstrasse 31, Barzheim", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Barzheim", + "start_position": 69, + "end_position": 77 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Wiesenstrasse 31", + "start_position": 51, + "end_position": 67 + }, + { + "entity_type": "ADDRESS", + "entity_value": "61", + "start_position": 48, + "end_position": 50 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Kroll Bond Ratings Agency", + "start_position": 21, + "end_position": 46 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Friday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Keiko to Jessica", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jessica", + "start_position": 30, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Keiko", + "start_position": 21, + "end_position": 26 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Jonathan to Damon", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Damon", + "start_position": 33, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Jonathan", + "start_position": 21, + "end_position": 29 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "Andrea Guernon lives at 18 Třebčínská 860, Horka nad Moravou", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Horka nad Moravou", + "start_position": 43, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Třebčínská 860", + "start_position": 27, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "18", + "start_position": 24, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrea Guernon", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "Unlike the Adamska novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Adamska", + "start_position": 11, + "end_position": 18 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "The State Farm Insurance office is at 82 Strickstrasse 21\nSolís\n, MA\n 18614", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "82 Strickstrasse 21\nSolís\n, MA\n 18614", + "start_position": 38, + "end_position": 75 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "State Farm Insurance", + "start_position": 4, + "end_position": 24 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "My friend lives in Poggiovalle Di Borgorose", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Poggiovalle Di Borgorose", + "start_position": 19, + "end_position": 43 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "this song by ex-zombie jäntti is a perfect example of why you shouldn't concentrate on the order of this list. an argument could be made that this should be at number one, and i wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "jäntti", + "start_position": 23, + "end_position": 29 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Shawn Kastelijn and starring Čeh", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Čeh", + "start_position": 89, + "end_position": 92 + }, + { + "entity_type": "PERSON", + "entity_value": "Shawn Kastelijn", + "start_position": 60, + "end_position": 75 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Bryan Ménard\n\n83 Urzáiz 12\n Suite 628\n Teruel\n\n Australia 08198", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "08198", + "start_position": 58, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "Australia", + "start_position": 48, + "end_position": 57 + }, + { + "entity_type": "LOCATION", + "entity_value": "Teruel", + "start_position": 39, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 628", + "start_position": 28, + "end_position": 37 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Urzáiz 12", + "start_position": 17, + "end_position": 26 + }, + { + "entity_type": "ADDRESS", + "entity_value": "83", + "start_position": 14, + "end_position": 16 + }, + { + "entity_type": "PERSON", + "entity_value": "Bryan Ménard", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Davis, Reynolds and Williamson is the brainchild of our 3 founders: Abakumova, Wallace and Perez. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Perez", + "start_position": 91, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Wallace", + "start_position": 79, + "end_position": 86 + }, + { + "entity_type": "PERSON", + "entity_value": "Abakumova", + "start_position": 68, + "end_position": 77 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Davis, Reynolds and Williamson", + "start_position": 0, + "end_position": 30 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "The letter arrived at the corner of 69 Spencer Street and Vokatý Street last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of 69 Spencer Street and Vokatý Street", + "start_position": 22, + "end_position": 71 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "Bożena spent a year at Itriage as the assistant to Elizabeth Balashova, and the following year at Palantir Technologies in Petrusville, which later became Programmableweb in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Programmableweb", + "start_position": 155, + "end_position": 170 + }, + { + "entity_type": "LOCATION", + "entity_value": "Petrusville", + "start_position": 123, + "end_position": 134 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Palantir Technologies", + "start_position": 98, + "end_position": 119 + }, + { + "entity_type": "PERSON", + "entity_value": "Elizabeth Balashova", + "start_position": 51, + "end_position": 70 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Itriage", + "start_position": 23, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Bożena", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "Daniel Baader will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Daniel Baader", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "in case of my child's account, we need to add tammy gyarmathy as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "tammy gyarmathy", + "start_position": 46, + "end_position": 61 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "Andrew Arvidsson lives at 21 3314 Harley Brook Lane, Altoona", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Altoona", + "start_position": 53, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "3314 Harley Brook Lane", + "start_position": 29, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "21", + "start_position": 26, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrew Arvidsson", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "michael is a very sympathetic person. they are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "michael", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "Meet me at the corner of Koepoortwal 115 and Hansen Street", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Koepoortwal 115 and Hansen Street", + "start_position": 11, + "end_position": 58 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "My website is http://www.GermanNightclub.ch/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://www.GermanNightclub.ch/", + "start_position": 14, + "end_position": 44 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "She was born on 2/16/1952. Her maiden name is Pinto", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Pinto", + "start_position": 46, + "end_position": 51 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2/16/1952", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: Unit 2962 Box 5219\nDPO AP 36157", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 2962 Box 5219\nDPO AP 36157", + "start_position": 63, + "end_position": 94 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "Michael Fleischer\nBenefits manager\nSoul Sounds Unlimited\n63 Ommerweg 159 Suite 287 Hellendoorn Saudi Arabia", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "63 Ommerweg 159 Suite 287 Hellendoorn Saudi Arabia", + "start_position": 57, + "end_position": 107 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Soul Sounds Unlimited", + "start_position": 35, + "end_position": 56 + }, + { + "entity_type": "TITLE", + "entity_value": "Benefits manager", + "start_position": 18, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Michael Fleischer", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "Randy had given Hallgerður his address: 73 Hegedûs Gyula utca 76., Mogyorósbánya", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Mogyorósbánya", + "start_position": 67, + "end_position": 80 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Hegedûs Gyula utca 76.", + "start_position": 43, + "end_position": 65 + }, + { + "entity_type": "ADDRESS", + "entity_value": "73", + "start_position": 40, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Hallgerður", + "start_position": 16, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Randy", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "A tribute to Brandon Ottarsdóttir ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandon Ottarsdóttir", + "start_position": 13, + "end_position": 33 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "My name is Kylie Bazhaev but everyone calls me Laura", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Laura", + "start_position": 47, + "end_position": 52 + }, + { + "entity_type": "PERSON", + "entity_value": "Kylie Bazhaev", + "start_position": 11, + "end_position": 24 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "My card 5245413212192297 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5245413212192297", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "The title refers to R Cortinhas Fonte 106 street in Lordelo. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Anderson Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Anderson Street", + "start_position": 207, + "end_position": 222 + }, + { + "entity_type": "LOCATION", + "entity_value": "Lordelo", + "start_position": 52, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "R Cortinhas Fonte 106", + "start_position": 20, + "end_position": 41 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "We moved here from Pelhrimov", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Pelhrimov", + "start_position": 19, + "end_position": 28 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "please update the billing address with usnv sandberg\nfpo aa 18532 for this card: 4539222126025164", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539222126025164", + "start_position": 81, + "end_position": 97 + }, + { + "entity_type": "ADDRESS", + "entity_value": "usnv sandberg\nfpo aa 18532", + "start_position": 39, + "end_position": 65 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the India. Producer Sandy Lahtela explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sandy Lahtela", + "start_position": 50, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "India", + "start_position": 34, + "end_position": 39 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "During the 1990s, Galorath Incorporated invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Galorath Incorporated", + "start_position": 18, + "end_position": 39 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. John Daviau?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "John Daviau", + "start_position": 88, + "end_position": 99 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Needham this morning from Kyrgyzstan.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kyrgyzstan", + "start_position": 56, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Needham", + "start_position": 30, + "end_position": 37 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Florida: Ceiba Solutions, Seeclickfix and Hubbard-Thomas. \"Don't feed me planned obsolescence,\" says Kathryn Whittaker in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kathryn Whittaker", + "start_position": 233, + "end_position": 250 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Hubbard-Thomas", + "start_position": 174, + "end_position": 188 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Seeclickfix", + "start_position": 158, + "end_position": 169 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ceiba Solutions", + "start_position": 141, + "end_position": 156 + }, + { + "entity_type": "LOCATION", + "entity_value": "Florida", + "start_position": 132, + "end_position": 139 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Unlike the Fry novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Fry", + "start_position": 11, + "end_position": 14 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "Why is Paliki so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Paliki", + "start_position": 7, + "end_position": 13 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "Please return to Lauren and Sorlaskeid 32 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Lauren and Sorlaskeid 32", + "start_position": 17, + "end_position": 41 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Salonen is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Salonen", + "start_position": 23, + "end_position": 30 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "How do I change my address to 31 Fitjabraut 85 Suite 092, Räsna, North Korea 12373 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "31 Fitjabraut 85 Suite 092, Räsna, North Korea 12373", + "start_position": 30, + "end_position": 82 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "The Kimberly Allaire version recorded for Garcia-Smith became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Garcia-Smith", + "start_position": 42, + "end_position": 54 + }, + { + "entity_type": "PERSON", + "entity_value": "Kimberly Allaire", + "start_position": 4, + "end_position": 20 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4532996866794736 on my e-mail ErminioPiccio@superrito.com?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "ErminioPiccio@superrito.com", + "start_position": 85, + "end_position": 112 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532996866794736", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "70 Eskelundsvej 15\n Suite 539\n København V\n Somalia 46908", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "46908", + "start_position": 52, + "end_position": 57 + }, + { + "entity_type": "LOCATION", + "entity_value": "Somalia", + "start_position": 44, + "end_position": 51 + }, + { + "entity_type": "LOCATION", + "entity_value": "København V", + "start_position": 31, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 539", + "start_position": 20, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Eskelundsvej 15", + "start_position": 3, + "end_position": 18 + }, + { + "entity_type": "ADDRESS", + "entity_value": "70", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Teresa de Vaan will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Teresa de Vaan", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "Follow up with Scott Romano in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Scott Romano", + "start_position": 15, + "end_position": 27 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "95 Dirk de Derdelaan 149\n Apt. 346\n Vlaardingen\n Equatorial Guinea 47297", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "47297", + "start_position": 67, + "end_position": 72 + }, + { + "entity_type": "LOCATION", + "entity_value": "Equatorial Guinea", + "start_position": 49, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Vlaardingen", + "start_position": 36, + "end_position": 47 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 346", + "start_position": 26, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Dirk de Derdelaan 149", + "start_position": 3, + "end_position": 24 + }, + { + "entity_type": "ADDRESS", + "entity_value": "95", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "my iban is gb50mvfc38361978683032", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "gb50mvfc38361978683032", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 21 Turjaška 46\n Apt. 358\n Radovljica\n Seychelles 61906", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "21 Turjaška 46\n Apt. 358\n Radovljica\n Seychelles 61906", + "start_position": 26, + "end_position": 80 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "I'm in MITTERLOBMING, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "MITTERLOBMING", + "start_position": 7, + "end_position": 20 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "Thomas Popović will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Thomas Popović", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "The letter arrived at 60 Dašická 688\n Apt. 328\n Turkovice u Prelouce\n Bulgaria 83572 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "60 Dašická 688\n Apt. 328\n Turkovice u Prelouce\n Bulgaria 83572", + "start_position": 22, + "end_position": 84 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "I have lost my card 4556325740808259. Could you please block my credit card ASAP ? My name is Brandi Daigle.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandi Daigle", + "start_position": 94, + "end_position": 107 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556325740808259", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Philip Ogawa\n\n55 Školní 645\n Suite 992\n Kámen u Pacova\n\n Myanmar 02386", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "02386", + "start_position": 65, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "Myanmar", + "start_position": 57, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kámen u Pacova", + "start_position": 40, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 992", + "start_position": 29, + "end_position": 38 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Školní 645", + "start_position": 17, + "end_position": 27 + }, + { + "entity_type": "ADDRESS", + "entity_value": "55", + "start_position": 14, + "end_position": 16 + }, + { + "entity_type": "PERSON", + "entity_value": "Philip Ogawa", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "\"the big three\" of the big three killed my baby are the car manufacturers that dominate the economy of the white stripes' home city jessheim: development seed, lending club and lucid. \"don't feed me planned obsolescence,\" says richard leblanc in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "richard leblanc", + "start_position": 227, + "end_position": 242 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "lucid", + "start_position": 177, + "end_position": 182 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "lending club", + "start_position": 160, + "end_position": 172 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "development seed", + "start_position": 142, + "end_position": 158 + }, + { + "entity_type": "LOCATION", + "entity_value": "jessheim", + "start_position": 132, + "end_position": 140 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4556601938071755 on my e-mail KosaraReisl@fleckens.hu?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "KosaraReisl@fleckens.hu", + "start_position": 85, + "end_position": 108 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556601938071755", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "Csanád is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Csanád", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in 79 291 Adelianos Kambos\n Suite 477\n Larnaka\n Democratic Republic of the Congo", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "79 291 Adelianos Kambos\n Suite 477\n Larnaka\n Democratic Republic of the Congo", + "start_position": 132, + "end_position": 209 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Keith Bult Jr. and starring Ruf", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ruf", + "start_position": 88, + "end_position": 91 + }, + { + "entity_type": "PERSON", + "entity_value": "Keith Bult Jr.", + "start_position": 60, + "end_position": 74 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Joshua Okamoto MD?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joshua Okamoto MD", + "start_position": 88, + "end_position": 105 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "I want to add Anthony Kortig as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Anthony Kortig", + "start_position": 14, + "end_position": 28 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "The title refers to Koenigstrasse 51 street in Weimar. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Chloupková Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Chloupková Street", + "start_position": 201, + "end_position": 218 + }, + { + "entity_type": "LOCATION", + "entity_value": "Weimar", + "start_position": 47, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Koenigstrasse 51", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address d80:e4b5:79da:6cf6:71f3:51f7:9161:c319 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "d80:e4b5:79da:6cf6:71f3:51f7:9161:c319", + "start_position": 50, + "end_position": 88 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "Jennifer Kucharski\n\n04 44 Rue Abderrahmen Ziad\n Suite 783\n Gargara\n\n Uruguay 93613", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "93613", + "start_position": 77, + "end_position": 82 + }, + { + "entity_type": "LOCATION", + "entity_value": "Uruguay", + "start_position": 69, + "end_position": 76 + }, + { + "entity_type": "LOCATION", + "entity_value": "Gargara", + "start_position": 59, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 783", + "start_position": 48, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "44 Rue Abderrahmen Ziad", + "start_position": 23, + "end_position": 46 + }, + { + "entity_type": "ADDRESS", + "entity_value": "04", + "start_position": 20, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Jennifer Kucharski", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "SKY is the brainchild of our 3 founders: Leehy, Perkins and Copeland. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Copeland", + "start_position": 60, + "end_position": 68 + }, + { + "entity_type": "PERSON", + "entity_value": "Perkins", + "start_position": 48, + "end_position": 55 + }, + { + "entity_type": "PERSON", + "entity_value": "Leehy", + "start_position": 41, + "end_position": 46 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "SKY", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Brodie: \\\"Who are you?\\\"\nJill:\\\"I\\'m Jane\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jane", + "start_position": 37, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "Jill", + "start_position": 25, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Brodie", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Joshua Trevisano and starring Morrow", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Morrow", + "start_position": 90, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Joshua Trevisano", + "start_position": 60, + "end_position": 76 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "Joel Bencsik listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Heather Ootsuki ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Heather Ootsuki", + "start_position": 168, + "end_position": 183 + }, + { + "entity_type": "PERSON", + "entity_value": "Joel Bencsik", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "Leslie Kocanda will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Leslie Kocanda", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "The address of Pave is 94 Koskikatu 83 Apt. 343, Churton Park, Guatemala 38007", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "94 Koskikatu 83 Apt. 343, Churton Park, Guatemala 38007", + "start_position": 23, + "end_position": 78 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Pave", + "start_position": 15, + "end_position": 19 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "Océane is from Experian", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Experian", + "start_position": 15, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Océane", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "Name: Bridget Knudsen\nAddress: 45 R Carne Azeda 16, Zavrč, Solomon Islands", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "45 R Carne Azeda 16, Zavrč, Solomon Islands", + "start_position": 38, + "end_position": 81 + }, + { + "entity_type": "PERSON", + "entity_value": "Bridget Knudsen", + "start_position": 9, + "end_position": 24 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "She was born on 6/23/1982. Her maiden name is McGregor", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "McGregor", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "6/23/1982", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": ">Margaret Suknović\n>Crowdanalytix\n>Mary Kelemen\n>73 Wilgenblik 87\n>Suite 271\n>Soest\n>Peru 38267", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "38267", + "start_position": 90, + "end_position": 95 + }, + { + "entity_type": "LOCATION", + "entity_value": "Peru", + "start_position": 85, + "end_position": 89 + }, + { + "entity_type": "LOCATION", + "entity_value": "Soest", + "start_position": 78, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 271", + "start_position": 67, + "end_position": 76 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Wilgenblik 87", + "start_position": 52, + "end_position": 65 + }, + { + "entity_type": "ADDRESS", + "entity_value": "73", + "start_position": 49, + "end_position": 51 + }, + { + "entity_type": "PERSON", + "entity_value": "Mary Kelemen", + "start_position": 35, + "end_position": 47 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Crowdanalytix", + "start_position": 20, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Margaret Suknović", + "start_position": 1, + "end_position": 18 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 4/29/1972", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "4/29/1972", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "\\\"I\\'m glad to hear that Mexico is moving in that direction,\\\" says Yudina.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Yudina", + "start_position": 68, + "end_position": 74 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mexico", + "start_position": 25, + "end_position": 31 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "Patrick is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Patrick", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "The Seeds of peace office is at Unit 4181 Box 1281\nDPO AA 57553", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 4181 Box 1281\nDPO AA 57553", + "start_position": 32, + "end_position": 63 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Seeds of peace", + "start_position": 4, + "end_position": 18 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "she named him anthony", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "anthony", + "start_position": 14, + "end_position": 21 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Chelsea Johansen).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Chelsea Johansen", + "start_position": 58, + "end_position": 74 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Dr. David Pearce\n\n42 Costanera 9293\n Apt. 609\n Puntas de Valdés\n\n Estonia 23998", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "23998", + "start_position": 74, + "end_position": 79 + }, + { + "entity_type": "LOCATION", + "entity_value": "Estonia", + "start_position": 66, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "Puntas de Valdés", + "start_position": 47, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 609", + "start_position": 37, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Costanera 9293", + "start_position": 21, + "end_position": 35 + }, + { + "entity_type": "ADDRESS", + "entity_value": "42", + "start_position": 18, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr. David Pearce", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Osisoft is the brainchild of our 3 founders: Mazzi, Bowman and Hill. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Hill", + "start_position": 63, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Bowman", + "start_position": 52, + "end_position": 58 + }, + { + "entity_type": "PERSON", + "entity_value": "Mazzi", + "start_position": 45, + "end_position": 50 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Osisoft", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email GermanKauzar@armyspy.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "GermanKauzar@armyspy.com", + "start_position": 39, + "end_position": 63 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "We'll meet Saturday at Esri, 64 Király u. 23., Tiszabög", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Tiszabög", + "start_position": 47, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Király u. 23.", + "start_position": 32, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "64", + "start_position": 29, + "end_position": 31 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Esri", + "start_position": 23, + "end_position": 27 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Saturday", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 4556299197925850", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556299197925850", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "Hugolina is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Hugolina", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "His social security number is 753-88-3825", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "753-88-3825", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "??? warren khadzhiyev\n??? state farm insurance\n??? 46 via raffaele conforti 74\n??? apt. 239\n??? bisegna\n??? saudi arabia 65001", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "65001", + "start_position": 121, + "end_position": 126 + }, + { + "entity_type": "LOCATION", + "entity_value": "saudi arabia", + "start_position": 108, + "end_position": 120 + }, + { + "entity_type": "LOCATION", + "entity_value": "bisegna", + "start_position": 96, + "end_position": 103 + }, + { + "entity_type": "ADDRESS", + "entity_value": "apt. 239", + "start_position": 83, + "end_position": 91 + }, + { + "entity_type": "ADDRESS", + "entity_value": "via raffaele conforti 74", + "start_position": 54, + "end_position": 78 + }, + { + "entity_type": "ADDRESS", + "entity_value": "46", + "start_position": 51, + "end_position": 53 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "state farm insurance", + "start_position": 26, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "warren khadzhiyev", + "start_position": 4, + "end_position": 21 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4556569627040193 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556569627040193", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "My IBAN is GB77KDJA68226507509063", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB77KDJA68226507509063", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Here's my SSN: 138-18-3964", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "138-18-3964", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "Follow up with Kayla Ermakova in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kayla Ermakova", + "start_position": 15, + "end_position": 29 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 10.218.6.131 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "10.218.6.131", + "start_position": 50, + "end_position": 62 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: 83 2329 Old Spallumcheen Rd\n Suite 631\n Princeton\n Namibia, and Λ. Μιχαλακοπούλου 171 Grandpré Street\n Apt. 421\n ΕΛ∆ΥΚ\n Liberia 72550", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Λ. Μιχαλακοπούλου 171 Grandpré Street\n Apt. 421\n ΕΛ∆ΥΚ\n Liberia 72550", + "start_position": 107, + "end_position": 176 + }, + { + "entity_type": "ADDRESS", + "entity_value": "83 2329 Old Spallumcheen Rd\n Suite 631\n Princeton\n Namibia", + "start_position": 43, + "end_position": 101 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "Kevin is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kevin", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "26 14 Chatsworth Road\n Apt. 195\n DEEP CREEK\n Czech Republic 95840", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "95840", + "start_position": 60, + "end_position": 65 + }, + { + "entity_type": "LOCATION", + "entity_value": "Czech Republic", + "start_position": 45, + "end_position": 59 + }, + { + "entity_type": "LOCATION", + "entity_value": "DEEP CREEK", + "start_position": 33, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 195", + "start_position": 23, + "end_position": 31 + }, + { + "entity_type": "ADDRESS", + "entity_value": "14 Chatsworth Road", + "start_position": 3, + "end_position": 21 + }, + { + "entity_type": "ADDRESS", + "entity_value": "26", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "a tribute to christina quintero ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "christina quintero", + "start_position": 13, + "end_position": 31 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "Hi Heiðbrá, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB36JGAJ77969475725982", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB36JGAJ77969475725982", + "start_position": 99, + "end_position": 121 + }, + { + "entity_type": "PERSON", + "entity_value": "Heiðbrá", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "They had 6: Victor, Andrew, Brandon, John, Evan and April.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "April", + "start_position": 52, + "end_position": 57 + }, + { + "entity_type": "PERSON", + "entity_value": "Evan", + "start_position": 43, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "John", + "start_position": 37, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "Brandon", + "start_position": 28, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrew", + "start_position": 20, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Victor", + "start_position": 12, + "end_position": 18 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "ifi claims patent services is the brainchild of our 3 founders: chaussée, blair and parks. the idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "parks", + "start_position": 84, + "end_position": 89 + }, + { + "entity_type": "PERSON", + "entity_value": "blair", + "start_position": 74, + "end_position": 79 + }, + { + "entity_type": "PERSON", + "entity_value": "chaussée", + "start_position": 64, + "end_position": 72 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "ifi claims patent services", + "start_position": 0, + "end_position": 26 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Heidi van der Vlist, the Maxillofacial surgeon, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Maxillofacial surgeon", + "start_position": 25, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Heidi van der Vlist", + "start_position": 0, + "end_position": 19 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on Hedemannstasse 15 St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Hedemannstasse 15", + "start_position": 26, + "end_position": 43 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "She moved here from Saint Vincent and the Grenadines", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Saint Vincent and the Grenadines", + "start_position": 20, + "end_position": 52 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "My zip code is 09197", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "09197", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": ">Tony Vasilyeva\n>Ngap Incorporated\n>Jason Uenk\n>73 Lozerlaan 172\n>Suite 137\n>Den Haag\n>Luxembourg 80428", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "80428", + "start_position": 98, + "end_position": 103 + }, + { + "entity_type": "LOCATION", + "entity_value": "Luxembourg", + "start_position": 87, + "end_position": 97 + }, + { + "entity_type": "LOCATION", + "entity_value": "Den Haag", + "start_position": 77, + "end_position": 85 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 137", + "start_position": 66, + "end_position": 75 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Lozerlaan 172", + "start_position": 51, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "73", + "start_position": 48, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "Jason Uenk", + "start_position": 36, + "end_position": 46 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ngap Incorporated", + "start_position": 17, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Tony Vasilyeva", + "start_position": 1, + "end_position": 15 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "What is the limit for card 5425428956827553?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5425428956827553", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "Daniel Nikolić will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Daniel Nikolić", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "What's your credit card? 5543516383729116", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5543516383729116", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "They're not answering at 25-62-29-72", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "25-62-29-72", + "start_position": 25, + "end_position": 36 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "André, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "André", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "I want to add Colton Svenningsen as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Colton Svenningsen", + "start_position": 14, + "end_position": 32 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "The letter arrived at USNS Frías\nFPO AA 88037 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNS Frías\nFPO AA 88037", + "start_position": 22, + "end_position": 45 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "As promised, here's Alex's address:\n\nthe corner of 4748 Westfall Avenue and Maclean Street", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of 4748 Westfall Avenue and Maclean Street", + "start_position": 37, + "end_position": 90 + }, + { + "entity_type": "PERSON", + "entity_value": "Alex", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "I want to add Trevor Muñiz as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Trevor Muñiz", + "start_position": 14, + "end_position": 26 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in 60 1908 Derby Ave\nSchipluiden\n, ZH\n 17885", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "60 1908 Derby Ave\nSchipluiden\n, ZH\n 17885", + "start_position": 132, + "end_position": 173 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Ekmečić is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ekmečić", + "start_position": 23, + "end_position": 30 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "She was born on 5/4/1936. Her maiden name is Leehy", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Leehy", + "start_position": 45, + "end_position": 50 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "5/4/1936", + "start_position": 16, + "end_position": 24 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4539612346517430 on my e-mail RaimondReumer@jourrapide.com?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "RaimondReumer@jourrapide.com", + "start_position": 85, + "end_position": 113 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539612346517430", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "Name: Susan Ruelas\nAddress: PSC 3357, Box 1530\nAPO AE 74402", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 3357, Box 1530\nAPO AE 74402", + "start_position": 35, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Susan Ruelas", + "start_position": 9, + "end_position": 21 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "A tribute to Joel Henriksen ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joel Henriksen", + "start_position": 13, + "end_position": 27 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "How do I change my address to PSC 4296, Box 4371\nAPO AA 03140 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 4296, Box 4371\nAPO AA 03140", + "start_position": 30, + "end_position": 61 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "My credit card 5279257345280449 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5279257345280449", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Lindström is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lindström", + "start_position": 23, + "end_position": 32 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "It's like that since 3/31/1934", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "3/31/1934", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "Innography is the brainchild of our 3 founders: Maslow, Anthony and Perry. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Perry", + "start_position": 68, + "end_position": 73 + }, + { + "entity_type": "PERSON", + "entity_value": "Anthony", + "start_position": 56, + "end_position": 63 + }, + { + "entity_type": "PERSON", + "entity_value": "Maslow", + "start_position": 48, + "end_position": 54 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Innography", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Kellie Bruce will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kellie Bruce", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "My driver's license number is A56319335", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "A56319335", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "Erica Kerr\n\n96 Salontie 19\n Suite 290\n HUMPPILA\n\n Oman 92227", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "92227", + "start_position": 55, + "end_position": 60 + }, + { + "entity_type": "LOCATION", + "entity_value": "Oman", + "start_position": 50, + "end_position": 54 + }, + { + "entity_type": "LOCATION", + "entity_value": "HUMPPILA", + "start_position": 39, + "end_position": 47 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 290", + "start_position": 28, + "end_position": 37 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Salontie 19", + "start_position": 15, + "end_position": 26 + }, + { + "entity_type": "ADDRESS", + "entity_value": "96", + "start_position": 12, + "end_position": 14 + }, + { + "entity_type": "PERSON", + "entity_value": "Erica Kerr", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 5400940151289172 on my e-mail RasmusSorvik@fleckens.hu?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "RasmusSorvik@fleckens.hu", + "start_position": 85, + "end_position": 109 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5400940151289172", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "You said your email is AlexanderMironova@gustr.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "AlexanderMironova@gustr.com", + "start_position": 23, + "end_position": 50 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "Sometimes people call me Snežana", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Snežana", + "start_position": 25, + "end_position": 32 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "luis: \\\"who are you?\\\"\ncarol:\\\"i\\'m lindsay\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "lindsay", + "start_position": 36, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "carol", + "start_position": 23, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "luis", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "Michael Tijsterman lives at 43 Ρ. Φεραίου 13, ΒΙΚΛΑ", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ΒΙΚΛΑ", + "start_position": 46, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Ρ. Φεραίου 13", + "start_position": 31, + "end_position": 44 + }, + { + "entity_type": "ADDRESS", + "entity_value": "43", + "start_position": 28, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Michael Tijsterman", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in Nanna and 85 Gimblett Street", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Nanna and 85 Gimblett Street", + "start_position": 132, + "end_position": 160 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "Civinomics is the brainchild of our 3 founders: Nadbath, Smith and Stanton. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Stanton", + "start_position": 67, + "end_position": 74 + }, + { + "entity_type": "PERSON", + "entity_value": "Smith", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Nadbath", + "start_position": 48, + "end_position": 55 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Civinomics", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "She moved here from Madagascar", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Madagascar", + "start_position": 20, + "end_position": 30 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Dr. Victor Preclíková?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Victor Preclíková", + "start_position": 88, + "end_position": 105 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "Name: Diana Fuchs\nAddress: 71 Schaarsteinweg 58\n Suite 485\n Ebermannsdorf\n Dominica 85183", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "71 Schaarsteinweg 58\n Suite 485\n Ebermannsdorf\n Dominica 85183", + "start_position": 34, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Diana Fuchs", + "start_position": 9, + "end_position": 20 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 4f8a:c99e:dc86:faf9:5988:5f63:375e:8a2a blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "4f8a:c99e:dc86:faf9:5988:5f63:375e:8a2a", + "start_position": 50, + "end_position": 89 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "I'm in PADASJOKI, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "PADASJOKI", + "start_position": 7, + "end_position": 16 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "What's your email? AnthonyConway@dayrep.com", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "AnthonyConway@dayrep.com", + "start_position": 19, + "end_position": 43 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "Anthony had given Aija his address: 56 San Andrés 70", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "San Andrés 70", + "start_position": 39, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "56", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Aija", + "start_position": 18, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Anthony", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "please tell me your date of birth. it's 3/30/1979", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "3/30/1979", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "I have lost my card 5138799043223479. Could you please block my credit card ASAP ? My name is Janice Lundberg.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Janice Lundberg", + "start_position": 94, + "end_position": 109 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5138799043223479", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "Sometimes people call me Majda Jožica", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Majda Jožica", + "start_position": 25, + "end_position": 37 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Amber Graham", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Amber Graham", + "start_position": 58, + "end_position": 70 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "who's coming to chad with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "chad", + "start_position": 16, + "end_position": 20 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "A tribute to Dan Ćaćić ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Dan Ćaćić", + "start_position": 13, + "end_position": 22 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "Unlike the Sigurlaugsson novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sigurlaugsson", + "start_position": 11, + "end_position": 24 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "You said your email is BarabasPeterke@cuvox.de. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "BarabasPeterke@cuvox.de", + "start_position": 23, + "end_position": 46 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "tara lebedeva\ncraig, palmer and quinn\n20 πεντέλης 210\n suite 887\n μελα∆εια\n argentina 13242\n97 111421 office\n001-668-040-8670x1711 fax\n921-835-1650x94266 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "921-835-1650x94266", + "start_position": 135, + "end_position": 153 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-668-040-8670x1711", + "start_position": 109, + "end_position": 130 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "97 111421", + "start_position": 92, + "end_position": 101 + }, + { + "entity_type": "ADDRESS", + "entity_value": "20 πεντέλης 210\n suite 887\n μελα∆εια\n argentina 13242", + "start_position": 38, + "end_position": 91 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "craig, palmer and quinn", + "start_position": 14, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "tara lebedeva", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "Michael Martin\n\n76 Piroska u. 97.\n Apt. 032\n Töttös\n Burundi 86618\n(69) 948-538-Office\\,636.840.1227-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "636.840.1227", + "start_position": 88, + "end_position": 100 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(69) 948-538", + "start_position": 67, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "86618", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Burundi", + "start_position": 53, + "end_position": 60 + }, + { + "entity_type": "LOCATION", + "entity_value": "Töttös", + "start_position": 45, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 032", + "start_position": 35, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Piroska u. 97.", + "start_position": 19, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "76", + "start_position": 16, + "end_position": 18 + }, + { + "entity_type": "PERSON", + "entity_value": "Michael Martin", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "Who's coming to South Korea with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "South Korea", + "start_position": 16, + "end_position": 27 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "The letter arrived at 02 59 Rue de la Nouvelle Delhi\nIkerasassuaq, KU 59728 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "02 59 Rue de la Nouvelle Delhi\nIkerasassuaq, KU 59728", + "start_position": 22, + "end_position": 75 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "Please update the billing address with 70 95 Dora Creek Apt. 604 THE CHANNON NSW for this card: 5451588209908620", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5451588209908620", + "start_position": 96, + "end_position": 112 + }, + { + "entity_type": "ADDRESS", + "entity_value": "70 95 Dora Creek Apt. 604 THE CHANNON NSW", + "start_position": 39, + "end_position": 80 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in 21 170 London Place Apt. 892 Brookfield Democratic Republic of the Congo", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "21 170 London Place Apt. 892 Brookfield Democratic Republic of the Congo", + "start_position": 132, + "end_position": 204 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Voss is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Voss", + "start_position": 23, + "end_position": 27 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "Stephen Vinogradov\nIrecycle\n31 27 Stone Cellar Road\nArzier, nan 50522\n(84) 7564-8830 office\n001-490-155-3846 fax\n357-596-4604 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "357-596-4604", + "start_position": 113, + "end_position": 125 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-490-155-3846", + "start_position": 92, + "end_position": 108 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(84) 7564-8830", + "start_position": 70, + "end_position": 84 + }, + { + "entity_type": "ADDRESS", + "entity_value": "31 27 Stone Cellar Road\nArzier, nan 50522", + "start_position": 28, + "end_position": 69 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Irecycle", + "start_position": 19, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephen Vinogradov", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 69 12 West Way Apt. 034 Durie Hill nan", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "69 12 West Way Apt. 034 Durie Hill nan", + "start_position": 63, + "end_position": 101 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "Lucas, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lucas", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4556165642907951 on my e-mail CampbellSmith@gustr.com?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "CampbellSmith@gustr.com", + "start_position": 85, + "end_position": 108 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556165642907951", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "Wemakeitsafer is the brainchild of our 3 founders: Schulz, Strickland and Matthews. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Matthews", + "start_position": 74, + "end_position": 82 + }, + { + "entity_type": "PERSON", + "entity_value": "Strickland", + "start_position": 59, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Schulz", + "start_position": 51, + "end_position": 57 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Wemakeitsafer", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "A tribute to David Souza ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "David Souza", + "start_position": 13, + "end_position": 24 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "Ewan spent a year at BBC as the assistant to Aaron Panina, and the following year at Sanders-Gill in Seguin, which later became Weather Decision Technologies in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Weather Decision Technologies", + "start_position": 128, + "end_position": 157 + }, + { + "entity_type": "LOCATION", + "entity_value": "Seguin", + "start_position": 101, + "end_position": 107 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Sanders-Gill", + "start_position": 85, + "end_position": 97 + }, + { + "entity_type": "PERSON", + "entity_value": "Aaron Panina", + "start_position": 45, + "end_position": 57 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "BBC", + "start_position": 21, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Ewan", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "Please return to 02 Peter Zuidhove 188\n Apt. 925\n Zoetermeer\n Laos in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "02 Peter Zuidhove 188\n Apt. 925\n Zoetermeer\n Laos", + "start_position": 17, + "end_position": 66 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "I want to add Christopher Hobbs as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christopher Hobbs", + "start_position": 14, + "end_position": 31 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Sometimes people call me Guiomar", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Guiomar", + "start_position": 25, + "end_position": 32 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 7/5/1970", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "7/5/1970", + "start_position": 40, + "end_position": 48 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "Date: 1994-06-17 08:11:32\nName: Stephanie Sullivan\nPhone: 021-4006034", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "021-4006034", + "start_position": 58, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Sullivan", + "start_position": 32, + "end_position": 50 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1994-06-17 08:11:32", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "We'll meet Monday at Rand Corporation, 59 Metsanurga 48, Vadsa", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Vadsa", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Metsanurga 48", + "start_position": 42, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "59", + "start_position": 39, + "end_position": 41 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Rand Corporation", + "start_position": 21, + "end_position": 37 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Monday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 72 3637 Heritage Drive\n Suite 263\n Calgary\n Equatorial Guinea 95051", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "72 3637 Heritage Drive\n Suite 263\n Calgary\n Equatorial Guinea 95051", + "start_position": 47, + "end_position": 114 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "You can tell Halina was a huge Diana Theissen fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Diana Theissen", + "start_position": 31, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Halina", + "start_position": 13, + "end_position": 19 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "Mr. Young is a 50 year old man who grew up in Runkelen.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Runkelen", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "PERSON", + "entity_value": "Young", + "start_position": 4, + "end_position": 9 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to Unit 8464 Box 4410\nDPO AA 74226", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 8464 Box 4410\nDPO AA 74226", + "start_position": 26, + "end_position": 57 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Júlia spent a year at Green Group as the assistant to Shannon Galić, and the following year at The Schork Report in Kwaxuma, which later became Quertle in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Quertle", + "start_position": 144, + "end_position": 151 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kwaxuma", + "start_position": 116, + "end_position": 123 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "The Schork Report", + "start_position": 95, + "end_position": 112 + }, + { + "entity_type": "PERSON", + "entity_value": "Shannon Galić", + "start_position": 54, + "end_position": 67 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Green Group", + "start_position": 22, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Júlia", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "Cambodia was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cambodia", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "Who's coming to Switzerland with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Switzerland", + "start_position": 16, + "end_position": 27 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5262538871237807 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5262538871237807", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "you can tell valentine was a huge hannah rangel fan. written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "hannah rangel", + "start_position": 34, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "valentine", + "start_position": 13, + "end_position": 22 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 5590738516278736", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5590738516278736", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": ">Richard Andreev\n>Berkery Noyes Mandasoft\n>Cynthia Martins\n>77 3658 Sunburst Drive\n>Apt. 466\n>Sanibel\n>Croatia 19279", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "19279", + "start_position": 111, + "end_position": 116 + }, + { + "entity_type": "LOCATION", + "entity_value": "Croatia", + "start_position": 103, + "end_position": 110 + }, + { + "entity_type": "LOCATION", + "entity_value": "Sanibel", + "start_position": 94, + "end_position": 101 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 466", + "start_position": 84, + "end_position": 92 + }, + { + "entity_type": "ADDRESS", + "entity_value": "3658 Sunburst Drive", + "start_position": 63, + "end_position": 82 + }, + { + "entity_type": "ADDRESS", + "entity_value": "77", + "start_position": 60, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Cynthia Martins", + "start_position": 43, + "end_position": 58 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Berkery Noyes Mandasoft", + "start_position": 18, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "Richard Andreev", + "start_position": 1, + "end_position": 16 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "How do I change my address to 54 ul. Lubartowska 42\nStation Nord\n, QA\n 10843 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "54 ul. Lubartowska 42\nStation Nord\n, QA\n 10843", + "start_position": 30, + "end_position": 76 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in Quincy, Government Transaction Services is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Government Transaction Services", + "start_position": 37, + "end_position": 68 + }, + { + "entity_type": "LOCATION", + "entity_value": "Quincy", + "start_position": 29, + "end_position": 35 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "My IBAN is GB56NBNN43143728094318", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB56NBNN43143728094318", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Here's my SSN: 364-21-3719", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "364-21-3719", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add Brian Sergeyeva as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brian Sergeyeva", + "start_position": 46, + "end_position": 61 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 160.67.237.27 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "160.67.237.27", + "start_position": 50, + "end_position": 63 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "My card 5310886920672678 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5310886920672678", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "In Lebanon they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Luis Dill points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Luis Dill", + "start_position": 134, + "end_position": 143 + }, + { + "entity_type": "LOCATION", + "entity_value": "Lebanon", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "What's your name? Meagan Šimić", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Meagan Šimić", + "start_position": 18, + "end_position": 30 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "Unlike the Rolc novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rolc", + "start_position": 11, + "end_position": 15 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "i want to increase limit on my card # 4485119858706421 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485119858706421", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "??? Mr. Jerome Barbosa\n??? Atsite\n??? 78 Laugarvegur 66\n??? Suite 952\n??? Reykjavík\n??? Luxembourg 95333", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "95333", + "start_position": 99, + "end_position": 104 + }, + { + "entity_type": "LOCATION", + "entity_value": "Luxembourg", + "start_position": 88, + "end_position": 98 + }, + { + "entity_type": "LOCATION", + "entity_value": "Reykjavík", + "start_position": 74, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 952", + "start_position": 60, + "end_position": 69 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Laugarvegur 66", + "start_position": 41, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "78", + "start_position": 38, + "end_position": 40 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Atsite", + "start_position": 27, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr. Jerome Barbosa", + "start_position": 4, + "end_position": 22 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "I'm in Egyek, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Egyek", + "start_position": 7, + "end_position": 12 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "They're not answering at 449 4898", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "449 4898", + "start_position": 25, + "end_position": 33 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "a great song made even greater by a mandolin coda (not by megan fyodorova).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "megan fyodorova", + "start_position": 58, + "end_position": 73 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Quandl\n\n80 87 Rue Joseph Vernet Apt. 849 BAR-LE-DUC LO", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "80 87 Rue Joseph Vernet Apt. 849 BAR-LE-DUC LO", + "start_position": 8, + "end_position": 54 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Quandl", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "What is the limit for card 5576917496790781?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5576917496790781", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "Business And Legal Resources\n\n38 124 N. Stadion Suite 056 Larnaka Larnaca", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "38 124 N. Stadion Suite 056 Larnaka Larnaca", + "start_position": 30, + "end_position": 73 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Business And Legal Resources", + "start_position": 0, + "end_position": 28 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Jeffery Lemann Jr., the Platemaker, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Platemaker", + "start_position": 24, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Jeffery Lemann Jr.", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "Fredrik shouted at Carla: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carla", + "start_position": 19, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Fredrik", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "Who's coming to Czech Republic with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Czech Republic", + "start_position": 16, + "end_position": 30 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "What's your email? MethodiusIbrahimov@jourrapide.com", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "MethodiusIbrahimov@jourrapide.com", + "start_position": 19, + "end_position": 52 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "Jan is from Connotate", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Connotate", + "start_position": 12, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Jan", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "name: katelyn villareal\naddress: 66 227 m. portaliou street suite 574, grundbach, bulgaria 46027", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66 227 m. portaliou street suite 574, grundbach, bulgaria 46027", + "start_position": 40, + "end_position": 103 + }, + { + "entity_type": "PERSON", + "entity_value": "katelyn villareal", + "start_position": 9, + "end_position": 26 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5504884924198390 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5504884924198390", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "I'm originally from Côte d'Ivoire", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Côte d'Ivoire", + "start_position": 20, + "end_position": 34 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Dr. Jennifer Shcherbakov Apt. 712 21 36 Rue de Pologne\nCite De L'Interieur 13 70486", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "70486", + "start_position": 78, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "13", + "start_position": 75, + "end_position": 77 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cite De L'Interieur", + "start_position": 55, + "end_position": 74 + }, + { + "entity_type": "ADDRESS", + "entity_value": "36 Rue de Pologne", + "start_position": 37, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "21", + "start_position": 34, + "end_position": 36 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 712", + "start_position": 25, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Jennifer Shcherbakov", + "start_position": 4, + "end_position": 24 + }, + { + "entity_type": "PREFIX", + "entity_value": "Dr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "i'm so jealous! said william to christina", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "christina", + "start_position": 32, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "william", + "start_position": 21, + "end_position": 28 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in Hamilton East, Wolf-Carpenter is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Wolf-Carpenter", + "start_position": 44, + "end_position": 58 + }, + { + "entity_type": "LOCATION", + "entity_value": "Hamilton East", + "start_position": 29, + "end_position": 42 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Montevideo: Flightstats, Transunion and Impaq International. \"Don't feed me planned obsolescence,\" says Jeffrey Ricci in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jeffrey Ricci", + "start_position": 236, + "end_position": 249 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Impaq International", + "start_position": 172, + "end_position": 191 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Transunion", + "start_position": 157, + "end_position": 167 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Flightstats", + "start_position": 144, + "end_position": 155 + }, + { + "entity_type": "LOCATION", + "entity_value": "Montevideo", + "start_position": 132, + "end_position": 142 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4532400891504608 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532400891504608", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "She named him Steven", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Steven", + "start_position": 14, + "end_position": 20 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "Just posted a photo http://www.TextFiction.de/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://www.TextFiction.de/", + "start_position": 20, + "end_position": 46 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "She was born on 2/19/1956. Her maiden name is Ybarra", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ybarra", + "start_position": 46, + "end_position": 52 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2/19/1956", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5338825229705399", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5338825229705399", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "How do I change my address to 49 Via Nizza 60\n Apt. 061\n Vascon\n Slovakia 65695 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "49 Via Nizza 60\n Apt. 061\n Vascon\n Slovakia 65695", + "start_position": 30, + "end_position": 79 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Zachary Trentini).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Zachary Trentini", + "start_position": 58, + "end_position": 74 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Have you been to a Zachary Örlygsdóttir concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Zachary Örlygsdóttir", + "start_position": 19, + "end_position": 39 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "Maybe it's under Devin Olsen", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Devin Olsen", + "start_position": 17, + "end_position": 28 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "As promised, here's Viktor's address:\n\n07 Hansinegata 120\nSPRINGDALE HEIGHTS\n, NSW\n 53218", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "07 Hansinegata 120\nSPRINGDALE HEIGHTS\n, NSW\n 53218", + "start_position": 39, + "end_position": 89 + }, + { + "entity_type": "PERSON", + "entity_value": "Viktor", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Hello, this is Mr. Carl Koike. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carl Koike", + "start_position": 19, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "What's your name? Steven Hemerka", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Steven Hemerka", + "start_position": 18, + "end_position": 32 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": ">Kayla Bengtsson\n>BioFlower\n>Joel Nikolić\n>17 31 Rue Al Imam Al Bakri\n>Suite 656\n>Cite Merzgui\n>Estonia 38695", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "38695", + "start_position": 104, + "end_position": 109 + }, + { + "entity_type": "LOCATION", + "entity_value": "Estonia", + "start_position": 96, + "end_position": 103 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cite Merzgui", + "start_position": 82, + "end_position": 94 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 656", + "start_position": 71, + "end_position": 80 + }, + { + "entity_type": "ADDRESS", + "entity_value": "31 Rue Al Imam Al Bakri", + "start_position": 46, + "end_position": 69 + }, + { + "entity_type": "ADDRESS", + "entity_value": "17", + "start_position": 43, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Joel Nikolić", + "start_position": 29, + "end_position": 41 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "BioFlower", + "start_position": 18, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Kayla Bengtsson", + "start_position": 1, + "end_position": 16 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "What's your credit card? 5361238925377564", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5361238925377564", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "card number 5323146592923544 is lost, can you please send a new one to USCGC Lussier\nFPO AE 05609? I am in ISE for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ISE", + "start_position": 107, + "end_position": 110 + }, + { + "entity_type": "ADDRESS", + "entity_value": "USCGC Lussier\nFPO AE 05609", + "start_position": 71, + "end_position": 97 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5323146592923544", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "His social security number is 195-60-0922", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "195-60-0922", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Rushisvili is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rushisvili", + "start_position": 23, + "end_position": 33 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "My name is Jesenko", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jesenko", + "start_position": 11, + "end_position": 18 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "they're not answering at 329 7730", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "329 7730", + "start_position": 25, + "end_position": 33 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "Norway was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Norway", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "My credit card 5491508398536802 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5491508398536802", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is USCGC Bustos\nFPO AE 64781", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USCGC Bustos\nFPO AE 64781", + "start_position": 47, + "end_position": 72 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "My name is Sean Pettersson but everyone calls me Darcy", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Darcy", + "start_position": 49, + "end_position": 54 + }, + { + "entity_type": "PERSON", + "entity_value": "Sean Pettersson", + "start_position": 11, + "end_position": 26 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "What's your name? April Martin", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "April Martin", + "start_position": 18, + "end_position": 30 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "Alicia Vaculíková\n\n02 30 N. Stadion\n Suite 256\n Larnaka\n Tanzania 92151\n24 428557-Office\\,+1-743-438-6774x62406-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-743-438-6774x62406", + "start_position": 90, + "end_position": 111 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "24 428557", + "start_position": 72, + "end_position": 81 + }, + { + "entity_type": "ADDRESS", + "entity_value": "92151", + "start_position": 66, + "end_position": 71 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tanzania", + "start_position": 57, + "end_position": 65 + }, + { + "entity_type": "LOCATION", + "entity_value": "Larnaka", + "start_position": 48, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 256", + "start_position": 37, + "end_position": 46 + }, + { + "entity_type": "ADDRESS", + "entity_value": "30 N. Stadion", + "start_position": 22, + "end_position": 35 + }, + { + "entity_type": "ADDRESS", + "entity_value": "02", + "start_position": 19, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Alicia Vaculíková", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Calvin Hébert).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Calvin Hébert", + "start_position": 58, + "end_position": 71 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Maybe it's under Joseph Mathiassen", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joseph Mathiassen", + "start_position": 17, + "end_position": 34 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "My name is Kelly Halvari but everyone calls me Adlan", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Adlan", + "start_position": 47, + "end_position": 52 + }, + { + "entity_type": "PERSON", + "entity_value": "Kelly Halvari", + "start_position": 11, + "end_position": 24 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "She named him Brandon", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandon", + "start_position": 14, + "end_position": 21 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4485609992038699 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485609992038699", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "My website is http://TalkAnorexia.de/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://TalkAnorexia.de/", + "start_position": 14, + "end_position": 37 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "We'll meet Thursday at Geolytics, 43 P.O. Box 41, Arsuk", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Arsuk", + "start_position": 50, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 41", + "start_position": 37, + "end_position": 48 + }, + { + "entity_type": "ADDRESS", + "entity_value": "43", + "start_position": 34, + "end_position": 36 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Geolytics", + "start_position": 23, + "end_position": 32 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Thursday", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 10/23/1951", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "10/23/1951", + "start_position": 40, + "end_position": 50 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "The letter arrived at Unit 5906 Box 6078\nDPO AP 49101 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 5906 Box 6078\nDPO AP 49101", + "start_position": 22, + "end_position": 53 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "I'm in Knonau, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Knonau", + "start_position": 7, + "end_position": 13 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "My driver's license number is LH329609T", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "LH329609T", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city DOLE: Qado Energy Inc., Carfax and Keychain Logistics Corp.. \"Don't feed me planned obsolescence,\" says Kimberly Lauritsen in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kimberly Lauritsen", + "start_position": 236, + "end_position": 254 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Keychain Logistics Corp.", + "start_position": 167, + "end_position": 191 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Carfax", + "start_position": 156, + "end_position": 162 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Qado Energy Inc.", + "start_position": 138, + "end_position": 154 + }, + { + "entity_type": "LOCATION", + "entity_value": "DOLE", + "start_position": 132, + "end_position": 136 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "celebrating its 10th year in ruše, iphix is a 501(c)3 that invites songwriters from around the world to texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "iphix", + "start_position": 35, + "end_position": 40 + }, + { + "entity_type": "LOCATION", + "entity_value": "ruše", + "start_position": 29, + "end_position": 33 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "I'm in Loka pri Zidanem Mostu, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Loka pri Zidanem Mostu", + "start_position": 7, + "end_position": 29 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "Robert Fiorentini\nJourneymen lineman\nNorthern Reflections\nPSC 7580, Box 2412\nAPO AA 63571", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 7580, Box 2412\nAPO AA 63571", + "start_position": 58, + "end_position": 89 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Northern Reflections", + "start_position": 37, + "end_position": 57 + }, + { + "entity_type": "TITLE", + "entity_value": "Journeymen lineman", + "start_position": 18, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert Fiorentini", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "Stephen had given Julcsa his address: 71 34 Avenue des Tuileries", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "34 Avenue des Tuileries", + "start_position": 41, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "71", + "start_position": 38, + "end_position": 40 + }, + { + "entity_type": "PERSON", + "entity_value": "Julcsa", + "start_position": 18, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephen", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "What's your credit card? 4556566374359099", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556566374359099", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "His social security number is 300-64-0916", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "300-64-0916", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "The Vazquez-Riggs office is at 53 Änggårda Anga 24\n Suite 420\n GRUMS\n Bahamas", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "53 Änggårda Anga 24\n Suite 420\n GRUMS\n Bahamas", + "start_position": 31, + "end_position": 77 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Vazquez-Riggs", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "She moved here from Bahamas", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bahamas", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: PSC 4926, Box 7979\nAPO AA 63682", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 4926, Box 7979\nAPO AA 63682", + "start_position": 63, + "end_position": 94 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "She moved here from Samoa", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Samoa", + "start_position": 20, + "end_position": 25 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Monaco was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Monaco", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "Just posted a photo http://TransferLive.be/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://TransferLive.be/", + "start_position": 20, + "end_position": 43 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Tammy Kappel's Cautionary Tales. Is there a better example of unbridled creativity than early Szôllôs?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Szôllôs", + "start_position": 218, + "end_position": 225 + }, + { + "entity_type": "PERSON", + "entity_value": "Tammy Kappel", + "start_position": 124, + "end_position": 136 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Thea to Pamela", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Pamela", + "start_position": 29, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Thea", + "start_position": 21, + "end_position": 25 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Oona to Kimberly", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kimberly", + "start_position": 29, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Oona", + "start_position": 21, + "end_position": 25 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "They're not answering at 9493 7477", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "9493 7477", + "start_position": 25, + "end_position": 34 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "When: 2014-02-13 09:33:20\nWhere: Warszawa Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Warszawa", + "start_position": 33, + "end_position": 41 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2014-02-13 09:33:20", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "My zip code is 46718", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "46718", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "Jennifer is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jennifer", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "My IBAN is GB61VFHS82148941232867", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB61VFHS82148941232867", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "She named him Mark", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mark", + "start_position": 14, + "end_position": 18 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "My friend lives in Stoholm Jylland", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Stoholm Jylland", + "start_position": 19, + "end_position": 34 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Schneider is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Schneider", + "start_position": 23, + "end_position": 32 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 4485689381883384", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485689381883384", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "My IBAN is GB04QHGE83377763088197", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB04QHGE83377763088197", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "bot: what's the name on the account? user: dana mitchell", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "dana mitchell", + "start_position": 43, + "end_position": 56 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "Have you been to a Ronald Aplin concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ronald Aplin", + "start_position": 19, + "end_position": 31 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "The Microbilt Corporation office is at 78 Victor Hugo u. 97.\nSečovlje\n, nan\n 45956", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "78 Victor Hugo u. 97.\nSečovlje\n, nan\n 45956", + "start_position": 39, + "end_position": 82 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Microbilt Corporation", + "start_position": 4, + "end_position": 25 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Dr. Ryan Ricci?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ryan Ricci", + "start_position": 88, + "end_position": 98 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "c'mon, sing it with me: \"you picked a fine time to leave me tomáš, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "tomáš", + "start_position": 60, + "end_position": 65 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": ">Sandra Cazares\n>Earthobserver App\n>Shannon Ferrari\n>21 17 Stone Cellar Road\n>Suite 842\n>KINGSTON NEAR LEWES\n>Qatar 85504", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "85504", + "start_position": 116, + "end_position": 121 + }, + { + "entity_type": "LOCATION", + "entity_value": "Qatar", + "start_position": 110, + "end_position": 115 + }, + { + "entity_type": "LOCATION", + "entity_value": "KINGSTON NEAR LEWES", + "start_position": 89, + "end_position": 108 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 842", + "start_position": 78, + "end_position": 87 + }, + { + "entity_type": "ADDRESS", + "entity_value": "17 Stone Cellar Road", + "start_position": 56, + "end_position": 76 + }, + { + "entity_type": "ADDRESS", + "entity_value": "21", + "start_position": 53, + "end_position": 55 + }, + { + "entity_type": "PERSON", + "entity_value": "Shannon Ferrari", + "start_position": 36, + "end_position": 51 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Earthobserver App", + "start_position": 17, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Sandra Cazares", + "start_position": 1, + "end_position": 15 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "They're not answering at 0487 23 46 71", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0487 23 46 71", + "start_position": 25, + "end_position": 38 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "Sean Košelnik will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sean Košelnik", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "My website is http://www.MonthlyTracker.ca/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://www.MonthlyTracker.ca/", + "start_position": 14, + "end_position": 43 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Mrs. Tammy Brynjólfsson", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mrs. Tammy Brynjólfsson", + "start_position": 58, + "end_position": 81 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "Name: Mathew Posavec\nAddress: 22 Bramstrup 21\n Apt. 570\n København K\n Yemen 11683", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "22 Bramstrup 21\n Apt. 570\n København K\n Yemen 11683", + "start_position": 37, + "end_position": 88 + }, + { + "entity_type": "PERSON", + "entity_value": "Mathew Posavec", + "start_position": 9, + "end_position": 23 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "Please update the billing address with Merle and P.O. Box 255 for this card: 4929395296999067", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929395296999067", + "start_position": 77, + "end_position": 93 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Merle and P.O. Box 255", + "start_position": 39, + "end_position": 61 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "Denmark was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Denmark", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "The Alicia Osborne version recorded for Tuvalabs became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Tuvalabs", + "start_position": 40, + "end_position": 48 + }, + { + "entity_type": "PERSON", + "entity_value": "Alicia Osborne", + "start_position": 4, + "end_position": 18 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "What's your email? CarolinaLombardi@einrot.com", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "CarolinaLombardi@einrot.com", + "start_position": 19, + "end_position": 46 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "The address of Rand Corporation is 51 Prinsenstraat 186, Calascibetta, Turkmenistan", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "51 Prinsenstraat 186, Calascibetta, Turkmenistan", + "start_position": 35, + "end_position": 83 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Rand Corporation", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "You said your email is JasminTRasmussen@fleckens.hu. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "JasminTRasmussen@fleckens.hu", + "start_position": 23, + "end_position": 51 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "How do I change my address to 43 Rua Graciliano Ramos 1950\nAmsterdam\n, NH\n 44172 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "43 Rua Graciliano Ramos 1950\nAmsterdam\n, NH\n 44172", + "start_position": 30, + "end_position": 80 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at ΛΑΡΝΑΚΑ this morning from Kenya.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kenya", + "start_position": 56, + "end_position": 61 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΛΑΡΝΑΚΑ", + "start_position": 30, + "end_position": 37 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "My name is Tamerlan", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tamerlan", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "i'd like to call a taxi to the corner of siikasaarentie 19 and matković street. please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of siikasaarentie 19 and matković street", + "start_position": 27, + "end_position": 78 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "Unlike the Bodnár novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Bodnár", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Timothy Dam's Cautionary Tales. Is there a better example of unbridled creativity than early Hajdu?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Hajdu", + "start_position": 217, + "end_position": 222 + }, + { + "entity_type": "PERSON", + "entity_value": "Timothy Dam", + "start_position": 124, + "end_position": 135 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "Alexander Wood listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Michelle Hallbjörnsson ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michelle Hallbjörnsson", + "start_position": 170, + "end_position": 192 + }, + { + "entity_type": "PERSON", + "entity_value": "Alexander Wood", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "A tribute to Carly Beneventi ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carly Beneventi", + "start_position": 13, + "end_position": 28 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "Shawn had given Inger his address: 91 R Carne Azeda 16", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "R Carne Azeda 16", + "start_position": 38, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "91", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Inger", + "start_position": 16, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Shawn", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "They had 6: Angelo, Melissa, Brian, Brandon, Matthew and Mary.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mary", + "start_position": 57, + "end_position": 61 + }, + { + "entity_type": "PERSON", + "entity_value": "Matthew", + "start_position": 45, + "end_position": 52 + }, + { + "entity_type": "PERSON", + "entity_value": "Brandon", + "start_position": 36, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Brian", + "start_position": 29, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Melissa", + "start_position": 20, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Angelo", + "start_position": 12, + "end_position": 18 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "In Mongolia they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Paul van der Voet points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Paul van der Voet", + "start_position": 135, + "end_position": 152 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mongolia", + "start_position": 3, + "end_position": 11 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "??? emily pottinger\n??? nautilytics\n??? 35 97 guildry street\n??? apt. 818\n??? galmisdale\n??? costa rica 67775", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "67775", + "start_position": 104, + "end_position": 109 + }, + { + "entity_type": "LOCATION", + "entity_value": "costa rica", + "start_position": 93, + "end_position": 103 + }, + { + "entity_type": "LOCATION", + "entity_value": "galmisdale", + "start_position": 78, + "end_position": 88 + }, + { + "entity_type": "ADDRESS", + "entity_value": "apt. 818", + "start_position": 65, + "end_position": 73 + }, + { + "entity_type": "ADDRESS", + "entity_value": "97 guildry street", + "start_position": 43, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "35", + "start_position": 40, + "end_position": 42 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "nautilytics", + "start_position": 24, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "emily pottinger", + "start_position": 4, + "end_position": 19 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Lisa Sörös and starring Savolainen", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Savolainen", + "start_position": 84, + "end_position": 94 + }, + { + "entity_type": "PERSON", + "entity_value": "Lisa Sörös", + "start_position": 60, + "end_position": 70 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Name: Catherine Laarman\nAddress: the corner of Ilichova 50 and Salcido Street", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Ilichova 50 and Salcido Street", + "start_position": 40, + "end_position": 84 + }, + { + "entity_type": "PERSON", + "entity_value": "Catherine Laarman", + "start_position": 9, + "end_position": 26 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "Laura Gorski\nMinistry Of Agriculture\n07 57 avenue Jules Ferry\nWILDPFAD, OO 10135\n21 232 945 1338 office\n169-825-3303 fax\n916.972.1680x22008 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "916.972.1680x22008", + "start_position": 121, + "end_position": 139 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "169-825-3303", + "start_position": 104, + "end_position": 116 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "21 232 945 1338", + "start_position": 81, + "end_position": 96 + }, + { + "entity_type": "ADDRESS", + "entity_value": "07 57 avenue Jules Ferry\nWILDPFAD, OO 10135", + "start_position": 37, + "end_position": 80 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ministry Of Agriculture", + "start_position": 13, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Laura Gorski", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Christine Matković", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christine Matković", + "start_position": 43, + "end_position": 61 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "22 Castelao 71\n Apt. 862\n Zalla\n Swaziland 69464", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "69464", + "start_position": 43, + "end_position": 48 + }, + { + "entity_type": "LOCATION", + "entity_value": "Swaziland", + "start_position": 33, + "end_position": 42 + }, + { + "entity_type": "LOCATION", + "entity_value": "Zalla", + "start_position": 26, + "end_position": 31 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 862", + "start_position": 16, + "end_position": 24 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Castelao 71", + "start_position": 3, + "end_position": 14 + }, + { + "entity_type": "ADDRESS", + "entity_value": "22", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Jacob Fremont listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Sarah Posavec ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sarah Posavec", + "start_position": 169, + "end_position": 182 + }, + { + "entity_type": "PERSON", + "entity_value": "Jacob Fremont", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "in case of my child's account, we need to add wendy olsen as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "wendy olsen", + "start_position": 46, + "end_position": 57 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "Julio shouted at David: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "David", + "start_position": 17, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Julio", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "card number 5362339764097989 is lost, can you please send a new one to USNS Vestergaard\nFPO AA 08331? I am in Chorzów for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Chorzów", + "start_position": 110, + "end_position": 117 + }, + { + "entity_type": "ADDRESS", + "entity_value": "USNS Vestergaard\nFPO AA 08331", + "start_position": 71, + "end_position": 100 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5362339764097989", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "unlike the steffensen novel, it's not about necrophilia. what it is about, i suppose is anyone's guess. a brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "steffensen", + "start_position": 11, + "end_position": 21 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "Maybe it's under Eugene Wälkky", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Eugene Wälkky", + "start_position": 17, + "end_position": 30 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "Follow up with Megan Olsen in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Megan Olsen", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "The Stephanie Ishibashi version recorded for Ellis-Ingram became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Ellis-Ingram", + "start_position": 45, + "end_position": 57 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Ishibashi", + "start_position": 4, + "end_position": 23 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Mr. Matthew Gavrilov II", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mr. Matthew Gavrilov II", + "start_position": 58, + "end_position": 81 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "My name is Lori Godina but everyone calls me Ingrid", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ingrid", + "start_position": 45, + "end_position": 51 + }, + { + "entity_type": "PERSON", + "entity_value": "Lori Godina", + "start_position": 11, + "end_position": 22 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "my zip code is 40645", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "40645", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "during the 1990s, open data nation invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "open data nation", + "start_position": 18, + "end_position": 34 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "the angela krapež version recorded for nera economic consulting became the first celebrity recording by a classical musician to sell one million copies. the song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "nera economic consulting", + "start_position": 39, + "end_position": 63 + }, + { + "entity_type": "PERSON", + "entity_value": "angela krapež", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email SighvatrAskelsson@dayrep.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "SighvatrAskelsson@dayrep.com", + "start_position": 39, + "end_position": 67 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "78 Rua das Pedras 930\n Apt. 363\n São Paulo\n Kenya 92342", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "92342", + "start_position": 50, + "end_position": 55 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kenya", + "start_position": 44, + "end_position": 49 + }, + { + "entity_type": "LOCATION", + "entity_value": "São Paulo", + "start_position": 33, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 363", + "start_position": 23, + "end_position": 31 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Rua das Pedras 930", + "start_position": 3, + "end_position": 21 + }, + { + "entity_type": "ADDRESS", + "entity_value": "78", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "just posted a photo http://www.lacrosseproperties.si/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://www.lacrosseproperties.si/", + "start_position": 20, + "end_position": 53 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: 23 49 boulevard Amiral Courbet\nBudel-Dorplein\n, NB\n 11933, and 16 Grosse Praesidenten Str. 20\n Apt. 936\n Aglasterhausen\n Serbia", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "16 Grosse Praesidenten Str. 20\n Apt. 936\n Aglasterhausen\n Serbia", + "start_position": 106, + "end_position": 170 + }, + { + "entity_type": "ADDRESS", + "entity_value": "23 49 boulevard Amiral Courbet\nBudel-Dorplein\n, NB\n 11933", + "start_position": 43, + "end_position": 100 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "Here's my SSN: 252-66-8757", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "252-66-8757", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "The title refers to 1121 New Creek Road street in Ohatchee. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Cantú Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Cantú Street", + "start_position": 206, + "end_position": 218 + }, + { + "entity_type": "LOCATION", + "entity_value": "Ohatchee", + "start_position": 50, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "1121 New Creek Road", + "start_position": 20, + "end_position": 39 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Taiwan, but Oliver just has to get laid. Don't go to town, Brian!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brian", + "start_position": 143, + "end_position": 148 + }, + { + "entity_type": "PERSON", + "entity_value": "Oliver", + "start_position": 96, + "end_position": 102 + }, + { + "entity_type": "LOCATION", + "entity_value": "Taiwan", + "start_position": 84, + "end_position": 90 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "Kotoya shouted at Morgan: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Morgan", + "start_position": 18, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Kotoya", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "what are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Matthew Benavidez", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Matthew Benavidez", + "start_position": 58, + "end_position": 75 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "follow up with jessica kadyrov in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "jessica kadyrov", + "start_position": 15, + "end_position": 30 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "What is the limit for card 5571525912892670?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5571525912892670", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 5131471341607269 on my e-mail DiogoSantosGomes@armyspy.com?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "DiogoSantosGomes@armyspy.com", + "start_position": 85, + "end_position": 113 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5131471341607269", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "They're not answering at 20-32-85-26", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "20-32-85-26", + "start_position": 25, + "end_position": 36 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "James Chocholová\nTelephone repairer\nFoot Quarters\nUnit 3906 Box 2810\nDPO AE 08750", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 3906 Box 2810\nDPO AE 08750", + "start_position": 50, + "end_position": 81 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Foot Quarters", + "start_position": 36, + "end_position": 49 + }, + { + "entity_type": "TITLE", + "entity_value": "Telephone repairer", + "start_position": 17, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "James Chocholová", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "Dr. Stacy Jónasdóttir Suite 683 11 Brucknerweg 141\nHaldenstein nan 76216", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "76216", + "start_position": 67, + "end_position": 72 + }, + { + "entity_type": "ADDRESS", + "entity_value": "nan", + "start_position": 63, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Haldenstein", + "start_position": 51, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Brucknerweg 141", + "start_position": 35, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "11", + "start_position": 32, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 683", + "start_position": 22, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Stacy Jónasdóttir", + "start_position": 4, + "end_position": 21 + }, + { + "entity_type": "PREFIX", + "entity_value": "Dr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "I have lost my card 4916749073580869. Could you please block my credit card ASAP ? My name is Zachary Mazzanti.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Zachary Mazzanti", + "start_position": 94, + "end_position": 110 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916749073580869", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Please update the billing address with Unit 2451 Box 9006\nDPO AA 78045 for this card: 4929325827136822", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929325827136822", + "start_position": 86, + "end_position": 102 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Unit 2451 Box 9006\nDPO AA 78045", + "start_position": 39, + "end_position": 70 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 136 Rue De La Liberté Lind Street\n Apt. 403\n Sisseb\n Turkey 93283", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "136 Rue De La Liberté Lind Street\n Apt. 403\n Sisseb\n Turkey 93283", + "start_position": 26, + "end_position": 91 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Aimee is from Vitalchek", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Vitalchek", + "start_position": 14, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Aimee", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4532867250822690 on my e-mail MaureenThibault@rhyta.com?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "MaureenThibault@rhyta.com", + "start_position": 85, + "end_position": 110 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532867250822690", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "Valery spent a year at Dun Bradstreet as the assistant to Ronald Araujo, and the following year at Citigroup in ÉCHIROLLES, which later became Brown-Weaver in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Brown-Weaver", + "start_position": 144, + "end_position": 156 + }, + { + "entity_type": "LOCATION", + "entity_value": "ÉCHIROLLES", + "start_position": 113, + "end_position": 123 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Citigroup", + "start_position": 100, + "end_position": 109 + }, + { + "entity_type": "PERSON", + "entity_value": "Ronald Araujo", + "start_position": 59, + "end_position": 72 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Dun Bradstreet", + "start_position": 23, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Valery", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "Ms. Holly Prošková Apt. 370 25 P.O. Box 108\nQaanaaq QA 27676", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "27676", + "start_position": 55, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "QA", + "start_position": 52, + "end_position": 54 + }, + { + "entity_type": "LOCATION", + "entity_value": "Qaanaaq", + "start_position": 44, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 108", + "start_position": 31, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "25", + "start_position": 28, + "end_position": 30 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 370", + "start_position": 19, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Holly Prošková", + "start_position": 4, + "end_position": 18 + }, + { + "entity_type": "PREFIX", + "entity_value": "Ms.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "ty, can i please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "ty", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "How do I change my address to 64 Boriñaur enparantza 29\n Suite 627\n Campos\n Cameroon for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "64 Boriñaur enparantza 29\n Suite 627\n Campos\n Cameroon", + "start_position": 30, + "end_position": 84 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "My card 5535754437636801 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5535754437636801", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "Michael is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michael", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "She moved here from Cape Verde", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cape Verde", + "start_position": 20, + "end_position": 30 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "my iban is gb48awjv07221741105646", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "gb48awjv07221741105646", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Theresa Gomes\n\n57 Veslebakken 48\n Apt. 441\n HARSTAD\n\n Madagascar 26873", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "26873", + "start_position": 65, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "Madagascar", + "start_position": 54, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "HARSTAD", + "start_position": 44, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 441", + "start_position": 34, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Veslebakken 48", + "start_position": 18, + "end_position": 32 + }, + { + "entity_type": "ADDRESS", + "entity_value": "57", + "start_position": 15, + "end_position": 17 + }, + { + "entity_type": "PERSON", + "entity_value": "Theresa Gomes", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Unlike the Nielsen novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nielsen", + "start_position": 11, + "end_position": 18 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Árias and Merritt were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Merritt", + "start_position": 59, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Árias", + "start_position": 49, + "end_position": 54 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Wassenaar: Palantir Technologies, Underwood Group and Spikes Cavell Analytic Inc.. \"Don't feed me planned obsolescence,\" says Michael Hyvönen in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michael Hyvönen", + "start_position": 258, + "end_position": 273 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Spikes Cavell Analytic Inc.", + "start_position": 186, + "end_position": 213 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Underwood Group", + "start_position": 166, + "end_position": 181 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Palantir Technologies", + "start_position": 143, + "end_position": 164 + }, + { + "entity_type": "LOCATION", + "entity_value": "Wassenaar", + "start_position": 132, + "end_position": 141 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 8/1/1951", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "8/1/1951", + "start_position": 40, + "end_position": 48 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Piñera: Vitalchek, Locavore and SKY. \"Don't feed me planned obsolescence,\" says Brandon Wojciechowski in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandon Wojciechowski", + "start_position": 212, + "end_position": 233 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "SKY", + "start_position": 164, + "end_position": 167 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Locavore", + "start_position": 151, + "end_position": 159 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Vitalchek", + "start_position": 140, + "end_position": 149 + }, + { + "entity_type": "LOCATION", + "entity_value": "Piñera", + "start_position": 132, + "end_position": 138 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "The title refers to 3022 Benson Park Drive street in Oklahoma City. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Grunewald Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Grunewald Street", + "start_position": 214, + "end_position": 230 + }, + { + "entity_type": "LOCATION", + "entity_value": "Oklahoma City", + "start_position": 53, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "3022 Benson Park Drive", + "start_position": 20, + "end_position": 42 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Laura Indriðadóttir's Cautionary Tales. Is there a better example of unbridled creativity than early Cseh?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cseh", + "start_position": 225, + "end_position": 229 + }, + { + "entity_type": "PERSON", + "entity_value": "Laura Indriðadóttir", + "start_position": 124, + "end_position": 143 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "Jamie Hyvönen\n\n05 Björkvägen 55\n Suite 988\n GETINGE\n Kingdom of the Netherlands 37521", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "37521", + "start_position": 80, + "end_position": 85 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kingdom of the Netherlands", + "start_position": 53, + "end_position": 79 + }, + { + "entity_type": "LOCATION", + "entity_value": "GETINGE", + "start_position": 44, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 988", + "start_position": 33, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Björkvägen 55", + "start_position": 18, + "end_position": 31 + }, + { + "entity_type": "ADDRESS", + "entity_value": "05", + "start_position": 15, + "end_position": 17 + }, + { + "entity_type": "PERSON", + "entity_value": "Jamie Hyvönen", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "Have you been to a Kevin Stacy concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kevin Stacy", + "start_position": 19, + "end_position": 30 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "Tara Burns lives at 63 Tylova 42, Karlovy Vary 17", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Karlovy Vary 17", + "start_position": 34, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Tylova 42", + "start_position": 23, + "end_position": 32 + }, + { + "entity_type": "ADDRESS", + "entity_value": "63", + "start_position": 20, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Tara Burns", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Taylor Einarsson MD and starring Berta", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Berta", + "start_position": 93, + "end_position": 98 + }, + { + "entity_type": "PERSON", + "entity_value": "Taylor Einarsson MD", + "start_position": 60, + "end_position": 79 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "His social security number is 224-87-3831", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "224-87-3831", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4539076995424829 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539076995424829", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "Maybe it's under Dennis Nucci", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Dennis Nucci", + "start_position": 17, + "end_position": 29 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "\\\"i\\'m glad to hear that el salvador is moving in that direction,\\\" says manna.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "manna", + "start_position": 73, + "end_position": 78 + }, + { + "entity_type": "LOCATION", + "entity_value": "el salvador", + "start_position": 25, + "end_position": 36 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "are there any charges applied to withdraw money from atm with the card 4539890478885136", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539890478885136", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "Brianna, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brianna", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 5302640992170800 on my e-mail SnorriSigmundsson@cuvox.de?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "SnorriSigmundsson@cuvox.de", + "start_position": 85, + "end_position": 111 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5302640992170800", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "They're not answering at 781 5991", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "781 5991", + "start_position": 25, + "end_position": 33 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "My credit card 5307628591397432 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5307628591397432", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "They had 6: Rasmus, Jeremy, Jacqueline, Sara, Jacqueline and Tanya.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tanya", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Jacqueline", + "start_position": 46, + "end_position": 56 + }, + { + "entity_type": "PERSON", + "entity_value": "Sara", + "start_position": 40, + "end_position": 44 + }, + { + "entity_type": "PERSON", + "entity_value": "Jacqueline", + "start_position": 28, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Jeremy", + "start_position": 20, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Rasmus", + "start_position": 12, + "end_position": 18 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "card number 4929752490197650 is lost, can you please send a new one to Hallgerður and Hegedûs Gyula utca 76.? I am in Danville for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Danville", + "start_position": 118, + "end_position": 126 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Hallgerður and Hegedûs Gyula utca 76.", + "start_position": 71, + "end_position": 108 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929752490197650", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "What's your credit card? 5151150995761631", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5151150995761631", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "how do i change my address to 64 97 guildry street suite 709, keaau, belgium 18632 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "64 97 guildry street suite 709, keaau, belgium 18632", + "start_position": 30, + "end_position": 82 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "card number 5585556316687923 is lost, can you please send a new one to 86 Rua Pedro Pivato 54 Apt. 125 Catanduva São Paulo? I am in GROSS-SCHWEINBARTH for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "GROSS-SCHWEINBARTH", + "start_position": 132, + "end_position": 150 + }, + { + "entity_type": "ADDRESS", + "entity_value": "86 Rua Pedro Pivato 54 Apt. 125 Catanduva São Paulo", + "start_position": 71, + "end_position": 122 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5585556316687923", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": ">Sierra Lilja\n>3 Round Stones Inc\n>Heather Larsen\n>47 Ctra. Bailén-Motril 84\n>Suite 894\n>Torres de Albánchez\n>Kiribati 01156", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "01156", + "start_position": 119, + "end_position": 124 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kiribati", + "start_position": 110, + "end_position": 118 + }, + { + "entity_type": "LOCATION", + "entity_value": "Torres de Albánchez", + "start_position": 89, + "end_position": 108 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 894", + "start_position": 78, + "end_position": 87 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Ctra. Bailén-Motril 84", + "start_position": 54, + "end_position": 76 + }, + { + "entity_type": "ADDRESS", + "entity_value": "47", + "start_position": 51, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Heather Larsen", + "start_position": 35, + "end_position": 49 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "3 Round Stones Inc", + "start_position": 15, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Sierra Lilja", + "start_position": 1, + "end_position": 13 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Kevin Panković and starring Kishiev", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kishiev", + "start_position": 88, + "end_position": 95 + }, + { + "entity_type": "PERSON", + "entity_value": "Kevin Panković", + "start_position": 60, + "end_position": 74 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "Date: 1972-10-01 21:58:22\nName: Amanda Larsen\nPhone: 88 165 40 96", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "88 165 40 96", + "start_position": 53, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Amanda Larsen", + "start_position": 32, + "end_position": 45 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1972-10-01 21:58:22", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": ">Vanessa Hope\n>Datamyne\n>Teresa Veindorfer\n>89 Joaquin Suarez 4740\n>Suite 414\n>Artilleros\n>Ethiopia 11809", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "11809", + "start_position": 100, + "end_position": 105 + }, + { + "entity_type": "LOCATION", + "entity_value": "Ethiopia", + "start_position": 91, + "end_position": 99 + }, + { + "entity_type": "LOCATION", + "entity_value": "Artilleros", + "start_position": 79, + "end_position": 89 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 414", + "start_position": 68, + "end_position": 77 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Joaquin Suarez 4740", + "start_position": 47, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "89", + "start_position": 44, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Teresa Veindorfer", + "start_position": 25, + "end_position": 42 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Datamyne", + "start_position": 15, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Vanessa Hope", + "start_position": 1, + "end_position": 13 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "I have lost my card 4532574406474406. Could you please block my credit card ASAP ? My name is Marcus Kudryashov.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Marcus Kudryashov", + "start_position": 94, + "end_position": 111 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532574406474406", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "During the 1990s, Kroll Bond Ratings Agency invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Kroll Bond Ratings Agency", + "start_position": 18, + "end_position": 43 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "Agatha, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Agatha", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email HilarionSozonov@einrot.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "HilarionSozonov@einrot.com", + "start_position": 39, + "end_position": 65 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "My IBAN is GB68GLWD90803549522072", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB68GLWD90803549522072", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "tamara chmielewski\n\n36 19 folkestone road\n suite 482\n wincle\n spain 63488", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "63488", + "start_position": 68, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "spain", + "start_position": 62, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "wincle", + "start_position": 54, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "suite 482", + "start_position": 43, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "19 folkestone road", + "start_position": 23, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "36", + "start_position": 20, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "tamara chmielewski", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "In Latvia they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Audrey Ojima points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Audrey Ojima", + "start_position": 133, + "end_position": 145 + }, + { + "entity_type": "LOCATION", + "entity_value": "Latvia", + "start_position": 3, + "end_position": 9 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "Noah shouted at Seth: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Seth", + "start_position": 16, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Noah", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "We'll meet Sunday at MysticWeb, 24 Kuefsteinstrasse 91, SANKT LORENZEN", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "SANKT LORENZEN", + "start_position": 56, + "end_position": 70 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Kuefsteinstrasse 91", + "start_position": 35, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "24", + "start_position": 32, + "end_position": 34 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "MysticWeb", + "start_position": 21, + "end_position": 30 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Sunday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "When: 2020-07-31 00:57:51\nWhere: Tiszabög Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Tiszabög", + "start_position": 33, + "end_position": 41 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2020-07-31 00:57:51", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Aimee Alexander).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Aimee Alexander", + "start_position": 58, + "end_position": 73 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 11/10/1936", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "11/10/1936", + "start_position": 40, + "end_position": 50 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Garrett Himmel", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Garrett Himmel", + "start_position": 43, + "end_position": 57 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 4716633708203596", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716633708203596", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Joseph Cantú and starring Alves", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Alves", + "start_position": 86, + "end_position": 91 + }, + { + "entity_type": "PERSON", + "entity_value": "Joseph Cantú", + "start_position": 60, + "end_position": 72 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "You said your email is LucaPenfold@armyspy.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "LucaPenfold@armyspy.com", + "start_position": 23, + "end_position": 46 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "19 guipúzcoa 1268\n apt. 013\n rocha\n norway 13453", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "13453", + "start_position": 43, + "end_position": 48 + }, + { + "entity_type": "LOCATION", + "entity_value": "norway", + "start_position": 36, + "end_position": 42 + }, + { + "entity_type": "LOCATION", + "entity_value": "rocha", + "start_position": 29, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "apt. 013", + "start_position": 19, + "end_position": 27 + }, + { + "entity_type": "ADDRESS", + "entity_value": "guipúzcoa 1268", + "start_position": 3, + "end_position": 17 + }, + { + "entity_type": "ADDRESS", + "entity_value": "19", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Please return to Unit 5599 Box 3418\nDPO AA 11483 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 5599 Box 3418\nDPO AA 11483", + "start_position": 17, + "end_position": 48 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "I have lost my card 4716816496108552. Could you please block my credit card ASAP ? My name is Kenneth Watson.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kenneth Watson", + "start_position": 94, + "end_position": 108 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716816496108552", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Have you been to a Michelle Wiley concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michelle Wiley", + "start_position": 19, + "end_position": 33 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "My name is Mónika", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mónika", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "The Oliver Wyman office is at 95 Avenue des Tuileries Lovrić Street\n Apt. 831\n GUÉRET\n Sudan 30046", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "95 Avenue des Tuileries Lovrić Street\n Apt. 831\n GUÉRET\n Sudan 30046", + "start_position": 30, + "end_position": 98 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Oliver Wyman", + "start_position": 4, + "end_position": 16 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Jason Otila\nGovtribe\n10 Travessa Esmeraldo Neto 1620 Apt. 199, Mata Mourisca, Saint Vincent and the Grenadines 36907\n22 498317 office\n625-124-2141 fax\n001-920-866-4851 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-920-866-4851", + "start_position": 151, + "end_position": 167 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "625-124-2141", + "start_position": 134, + "end_position": 146 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "22 498317", + "start_position": 117, + "end_position": 126 + }, + { + "entity_type": "ADDRESS", + "entity_value": "10 Travessa Esmeraldo Neto 1620 Apt. 199, Mata Mourisca, Saint Vincent and the Grenadines 36907", + "start_position": 21, + "end_position": 116 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Govtribe", + "start_position": 12, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Jason Otila", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "Unlike the Schmitz novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Schmitz", + "start_position": 11, + "end_position": 18 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "They had 6: Alpatu, Maria, Kelly, Kimberly, Gregory and Leah.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Leah", + "start_position": 56, + "end_position": 60 + }, + { + "entity_type": "PERSON", + "entity_value": "Gregory", + "start_position": 44, + "end_position": 51 + }, + { + "entity_type": "PERSON", + "entity_value": "Kimberly", + "start_position": 34, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Kelly", + "start_position": 27, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "Maria", + "start_position": 20, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Alpatu", + "start_position": 12, + "end_position": 18 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "here's my ssn: 555-05-5515", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "555-05-5515", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "Knoema\n\n99 82 Maidstone Road\n Apt. 224\n WELLINGTON MARSH\n Armenia 03622", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "99 82 Maidstone Road\n Apt. 224\n WELLINGTON MARSH\n Armenia 03622", + "start_position": 8, + "end_position": 71 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Knoema", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to Ivan and Českého odboje 1735. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Ivan and Českého odboje 1735", + "start_position": 27, + "end_position": 55 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "Bridgewater is the brainchild of our 3 founders: Novosel, Robinson and Holmes. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Holmes", + "start_position": 71, + "end_position": 77 + }, + { + "entity_type": "PERSON", + "entity_value": "Robinson", + "start_position": 58, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Novosel", + "start_position": 49, + "end_position": 56 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Bridgewater", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at ΠΕΛΑΘΟΥΣΑ this morning from Mexico.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Mexico", + "start_position": 58, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΠΕΛΑΘΟΥΣΑ", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Olivia Schmitt's Cautionary Tales. Is there a better example of unbridled creativity than early Czarnecki?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Czarnecki", + "start_position": 220, + "end_position": 229 + }, + { + "entity_type": "PERSON", + "entity_value": "Olivia Schmitt", + "start_position": 124, + "end_position": 138 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "Hello, this is Mr. Jason Hoover. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jason Hoover", + "start_position": 19, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "My IBAN is GB93TSUW31047479583079", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB93TSUW31047479583079", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Emma: \\\"Who are you?\\\"\nAmber:\\\"I\\'m Cynthia\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cynthia", + "start_position": 36, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Amber", + "start_position": 23, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Emma", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Thomas Whitefoord and starring Kraft", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kraft", + "start_position": 91, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Thomas Whitefoord", + "start_position": 60, + "end_position": 77 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "89 Gammelhavn 36\n Apt. 591\n Anholt\n People's Republic of China 75271", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "75271", + "start_position": 63, + "end_position": 68 + }, + { + "entity_type": "LOCATION", + "entity_value": "People's Republic of China", + "start_position": 36, + "end_position": 62 + }, + { + "entity_type": "LOCATION", + "entity_value": "Anholt", + "start_position": 28, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 591", + "start_position": 18, + "end_position": 26 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Gammelhavn 36", + "start_position": 3, + "end_position": 16 + }, + { + "entity_type": "ADDRESS", + "entity_value": "89", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 73 Dalmatinova 108\nPorto Alegre\n, RS\n 66874", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "73 Dalmatinova 108\nPorto Alegre\n, RS\n 66874", + "start_position": 47, + "end_position": 90 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "\\\"I\\'m glad to hear that Spain is moving in that direction,\\\" says Lugo.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lugo", + "start_position": 67, + "end_position": 71 + }, + { + "entity_type": "LOCATION", + "entity_value": "Spain", + "start_position": 25, + "end_position": 30 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Shawn Osborne", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Shawn Osborne", + "start_position": 43, + "end_position": 56 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "The Rei Systems office is at 40 33 Avenue Millies Lacroix Apt. 968, Agios Epiktitos, Iran 65400", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "40 33 Avenue Millies Lacroix Apt. 968, Agios Epiktitos, Iran 65400", + "start_position": 29, + "end_position": 95 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Rei Systems", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Housse this morning from Thailand.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Thailand", + "start_position": 55, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "Housse", + "start_position": 30, + "end_position": 36 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "She was born on 2/19/1988. Her maiden name is Lind", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lind", + "start_position": 46, + "end_position": 50 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2/19/1988", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Shannon had given Thea his address: 94 19 rue La Boétie, PARIS", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "PARIS", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "19 rue La Boétie", + "start_position": 39, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "94", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Thea", + "start_position": 18, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Shannon", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4556158474337090 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556158474337090", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "I want to add James Hyvönen as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "James Hyvönen", + "start_position": 14, + "end_position": 27 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Sean Vizirov DVM?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sean Vizirov DVM", + "start_position": 88, + "end_position": 104 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "Danielle Kruse lives at 11 Paso Rivero 7301, Tomas Gomensoro", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Tomas Gomensoro", + "start_position": 45, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Paso Rivero 7301", + "start_position": 27, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "11", + "start_position": 24, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Danielle Kruse", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "what are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "i'd like it to be sent to orrspelsv 49 marino street\n apt. 934\n lycksele\n cape verde 18938", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "orrspelsv 49 marino street\n apt. 934\n lycksele\n cape verde 18938", + "start_position": 26, + "end_position": 90 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Unlike the Maslow novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Maslow", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "Miranda Márquez\n\n92 De Lindeboom 105\n Suite 458\n Mijdrecht\n New Zealand 35969", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "35969", + "start_position": 72, + "end_position": 77 + }, + { + "entity_type": "LOCATION", + "entity_value": "New Zealand", + "start_position": 60, + "end_position": 71 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mijdrecht", + "start_position": 49, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 458", + "start_position": 38, + "end_position": 47 + }, + { + "entity_type": "ADDRESS", + "entity_value": "De Lindeboom 105", + "start_position": 20, + "end_position": 36 + }, + { + "entity_type": "ADDRESS", + "entity_value": "92", + "start_position": 17, + "end_position": 19 + }, + { + "entity_type": "PERSON", + "entity_value": "Miranda Márquez", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "can i withdraw cash using my card 4556533239101405 at atm center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556533239101405", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "Please return to 03 33 Rue Ibn Al Jazzar Apt. 166 Cite Presidentielle Papua New Guinea in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "03 33 Rue Ibn Al Jazzar Apt. 166 Cite Presidentielle Papua New Guinea", + "start_position": 17, + "end_position": 86 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "The Donna Jurić version recorded for Coden became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Coden", + "start_position": 37, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Donna Jurić", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "I want to add Joanne Godina as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joanne Godina", + "start_position": 14, + "end_position": 27 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Name: Brittney Ivanović\nAddress: Unit 4502 Box 4881\nDPO AA 19766", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 4502 Box 4881\nDPO AA 19766", + "start_position": 40, + "end_position": 71 + }, + { + "entity_type": "PERSON", + "entity_value": "Brittney Ivanović", + "start_position": 9, + "end_position": 26 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "Follow up with Daniel Kalloe in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Daniel Kalloe", + "start_position": 15, + "end_position": 28 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "The letter arrived at 51 χλμ Αλεξανδρούπολης 133\nDRAMMEN, nan 26189 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "51 χλμ Αλεξανδρούπολης 133\nDRAMMEN, nan 26189", + "start_position": 22, + "end_position": 67 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "She was born on 12/27/1947. Her maiden name is Hyytiä", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Hyytiä", + "start_position": 47, + "end_position": 53 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "12/27/1947", + "start_position": 16, + "end_position": 26 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "one of the most depressing songs on the list. he's injured from the waist down from marshall islands, but abelardo just has to get laid. don't go to town, carmen!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "carmen", + "start_position": 155, + "end_position": 161 + }, + { + "entity_type": "PERSON", + "entity_value": "abelardo", + "start_position": 106, + "end_position": 114 + }, + { + "entity_type": "LOCATION", + "entity_value": "marshall islands", + "start_position": 84, + "end_position": 100 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "The Google Public Data Explorer office is at 93 Industrivej 82, Quinta do Paço, Czech Republic", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "93 Industrivej 82, Quinta do Paço, Czech Republic", + "start_position": 45, + "end_position": 94 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Google Public Data Explorer", + "start_position": 4, + "end_position": 31 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4539647688586080", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539647688586080", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "Lisa Denisov, the Gas furnace installer, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Gas furnace installer", + "start_position": 18, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "Lisa Denisov", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "It's like that since 2/27/1965", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "2/27/1965", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to USS Sörös\nFPO AE 18956", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USS Sörös\nFPO AE 18956", + "start_position": 26, + "end_position": 48 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Myanmar. Producer Michael Hansen explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michael Hansen", + "start_position": 52, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Myanmar", + "start_position": 34, + "end_position": 41 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "Jennifer is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jennifer", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "Mieszko is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mieszko", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": ">Tara Martinez\n>Nera Economic Consulting\n>Morgan Zimmer\n>48 109 Xanthou Street\n>Apt. 698\n>Lakatameia\n>Bhutan 43145", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "43145", + "start_position": 109, + "end_position": 114 + }, + { + "entity_type": "LOCATION", + "entity_value": "Bhutan", + "start_position": 102, + "end_position": 108 + }, + { + "entity_type": "LOCATION", + "entity_value": "Lakatameia", + "start_position": 90, + "end_position": 100 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 698", + "start_position": 80, + "end_position": 88 + }, + { + "entity_type": "ADDRESS", + "entity_value": "109 Xanthou Street", + "start_position": 60, + "end_position": 78 + }, + { + "entity_type": "ADDRESS", + "entity_value": "48", + "start_position": 57, + "end_position": 59 + }, + { + "entity_type": "PERSON", + "entity_value": "Morgan Zimmer", + "start_position": 42, + "end_position": 55 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Nera Economic Consulting", + "start_position": 16, + "end_position": 40 + }, + { + "entity_type": "PERSON", + "entity_value": "Tara Martinez", + "start_position": 1, + "end_position": 14 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Tanzania. Producer Thomas Speer explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Thomas Speer", + "start_position": 53, + "end_position": 65 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tanzania", + "start_position": 34, + "end_position": 42 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "When: 1988-05-19 07:13:05\nWhere: Castelló de Rugat Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Castelló de Rugat", + "start_position": 33, + "end_position": 50 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1988-05-19 07:13:05", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "Maha spent a year at New Media Parents as the assistant to William Galić, and the following year at Optigov in Chiclana de la Frontera, which later became Oliver Wyman in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Oliver Wyman", + "start_position": 155, + "end_position": 167 + }, + { + "entity_type": "LOCATION", + "entity_value": "Chiclana de la Frontera", + "start_position": 111, + "end_position": 134 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Optigov", + "start_position": 100, + "end_position": 107 + }, + { + "entity_type": "PERSON", + "entity_value": "William Galić", + "start_position": 59, + "end_position": 72 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "New Media Parents", + "start_position": 21, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Maha", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "robinette is from 6sigma", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "6sigma", + "start_position": 18, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "robinette", + "start_position": 0, + "end_position": 9 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "Have you been to a Steven Horvatinčić concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Steven Horvatinčić", + "start_position": 19, + "end_position": 37 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "Here's my SSN: 781-05-5433", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "781-05-5433", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "Hello, this is Mr. Joseph Dresdner. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joseph Dresdner", + "start_position": 19, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "The address of Valentine-Murray is 85 Ventanilla de Beas 33 Suite 999 Madrid Madrid", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "85 Ventanilla de Beas 33 Suite 999 Madrid Madrid", + "start_position": 35, + "end_position": 83 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Valentine-Murray", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Brandy Vleugels", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandy Vleugels", + "start_position": 43, + "end_position": 58 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "During the 1990s, Junar Inc invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Junar Inc", + "start_position": 18, + "end_position": 27 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "I want to add Brian Negishi as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brian Negishi", + "start_position": 14, + "end_position": 27 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Myanmar, but Mia just has to get laid. Don't go to town, Kelly!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kelly", + "start_position": 141, + "end_position": 146 + }, + { + "entity_type": "PERSON", + "entity_value": "Mia", + "start_position": 97, + "end_position": 100 + }, + { + "entity_type": "LOCATION", + "entity_value": "Myanmar", + "start_position": 84, + "end_position": 91 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Alice Hasti and starring Kozłowski", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kozłowski", + "start_position": 85, + "end_position": 94 + }, + { + "entity_type": "PERSON", + "entity_value": "Alice Hasti", + "start_position": 60, + "end_position": 71 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Jamaica, but Julitta just has to get laid. Don't go to town, James!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "James", + "start_position": 145, + "end_position": 150 + }, + { + "entity_type": "PERSON", + "entity_value": "Julitta", + "start_position": 97, + "end_position": 104 + }, + { + "entity_type": "LOCATION", + "entity_value": "Jamaica", + "start_position": 84, + "end_position": 91 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "Anna Reid\n\n49 Bergshaugen 43\n Apt. 323\n FOSNAVÅG\n Antigua and Barbuda 28975", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "28975", + "start_position": 70, + "end_position": 75 + }, + { + "entity_type": "LOCATION", + "entity_value": "Antigua and Barbuda", + "start_position": 50, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "FOSNAVÅG", + "start_position": 40, + "end_position": 48 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 323", + "start_position": 30, + "end_position": 38 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Bergshaugen 43", + "start_position": 14, + "end_position": 28 + }, + { + "entity_type": "ADDRESS", + "entity_value": "49", + "start_position": 11, + "end_position": 13 + }, + { + "entity_type": "PERSON", + "entity_value": "Anna Reid", + "start_position": 0, + "end_position": 9 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "My name is Anna Hyvönen but everyone calls me Iqra", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Iqra", + "start_position": 46, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "Anna Hyvönen", + "start_position": 11, + "end_position": 23 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call (11) 4706-6184", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(11) 4706-6184", + "start_position": 35, + "end_position": 49 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "my religion does not allow speaking to bots, they are evil and hacked by the devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "i want to update my primary and secondary address to the same: 32 p.o. box 249\n apt. 976\n kulusuk\n lebanon", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "32 p.o. box 249\n apt. 976\n kulusuk\n lebanon", + "start_position": 63, + "end_position": 106 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "hello, this is mr. chad farmer. who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "chad farmer", + "start_position": 19, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "mr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "They're not answering at 041 541 67 61", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "041 541 67 61", + "start_position": 25, + "end_position": 38 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "here's my ssn: 629-15-2988", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "629-15-2988", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "Have you been to a Cheryl Svobodová concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cheryl Svobodová", + "start_position": 19, + "end_position": 35 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "zoolander is a 2001 american action-comedy film directed by michelle crowder and starring de vaan", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "de vaan", + "start_position": 90, + "end_position": 97 + }, + { + "entity_type": "PERSON", + "entity_value": "michelle crowder", + "start_position": 60, + "end_position": 76 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Barry Eldarkhanov\n\n22 Amsinckstrasse 9\n Suite 776\n Arnsdorf\n\n Malta 38302", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "38302", + "start_position": 68, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "Malta", + "start_position": 62, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "Arnsdorf", + "start_position": 51, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 776", + "start_position": 40, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Amsinckstrasse 9", + "start_position": 22, + "end_position": 38 + }, + { + "entity_type": "ADDRESS", + "entity_value": "22", + "start_position": 19, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Barry Eldarkhanov", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Date: 2000-10-12 20:49:24\nName: Angela Bravo\nPhone: 040 898 9331", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "040 898 9331", + "start_position": 52, + "end_position": 64 + }, + { + "entity_type": "PERSON", + "entity_value": "Angela Bravo", + "start_position": 32, + "end_position": 44 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2000-10-12 20:49:24", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "David Hagiwara\nNgap Incorporated\n49 Nassaustraat 123\nOrmiston, nan 04293\n0479 50 54 03 office\n+1-962-819-8200 fax\n675.792.5614x89902 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "675.792.5614x89902", + "start_position": 114, + "end_position": 132 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-962-819-8200", + "start_position": 94, + "end_position": 109 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0479 50 54 03", + "start_position": 73, + "end_position": 86 + }, + { + "entity_type": "ADDRESS", + "entity_value": "49 Nassaustraat 123\nOrmiston, nan 04293", + "start_position": 33, + "end_position": 72 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ngap Incorporated", + "start_position": 15, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "David Hagiwara", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 469 34 883", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "469 34 883", + "start_position": 35, + "end_position": 45 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "She moved here from People's Republic of China", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "People's Republic of China", + "start_position": 20, + "end_position": 46 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "a tribute to samuel lund ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "samuel lund", + "start_position": 13, + "end_position": 24 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "bot: what's the name on the account? user: tina roelink", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "tina roelink", + "start_position": 43, + "end_position": 55 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "My zip code is 51859", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "51859", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "My friend lives in Leipzig", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Leipzig", + "start_position": 19, + "end_position": 26 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 032 696 10 69", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "032 696 10 69", + "start_position": 35, + "end_position": 48 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "His social security number is 466-16-7762", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "466-16-7762", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Maybe it's under Heather Horvatinčić", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Heather Horvatinčić", + "start_position": 17, + "end_position": 36 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "Kelly Björgvinsdóttir\nAdaptive\n63 Via Verbano 62, Villa Darwin, Latvia\n61 51 81 office\n+1-203-305-2492x5662 fax\n619-648-6618x20779 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "619-648-6618x20779", + "start_position": 112, + "end_position": 130 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-203-305-2492x5662", + "start_position": 87, + "end_position": 107 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "61 51 81", + "start_position": 71, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "63 Via Verbano 62, Villa Darwin, Latvia", + "start_position": 31, + "end_position": 70 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Adaptive", + "start_position": 22, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Kelly Björgvinsdóttir", + "start_position": 0, + "end_position": 21 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "As promised, here's Oliver's address:\n\nUSNV Karataev\nFPO AE 37876", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNV Karataev\nFPO AE 37876", + "start_position": 39, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Oliver", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "My website is https://projectbulamai.com/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://projectbulamai.com/", + "start_position": 14, + "end_position": 41 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from El Salvador, but Þórbergur just has to get laid. Don't go to town, Sherry!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sherry", + "start_position": 151, + "end_position": 157 + }, + { + "entity_type": "PERSON", + "entity_value": "Þórbergur", + "start_position": 101, + "end_position": 110 + }, + { + "entity_type": "LOCATION", + "entity_value": "El Salvador", + "start_position": 84, + "end_position": 95 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "During the 1990s, Simple Energy invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Simple Energy", + "start_position": 18, + "end_position": 31 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "Here's my SSN: 760-38-1475", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "760-38-1475", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "The address of Healthmap is PSC 1083, Box 3672\nAPO AP 10176", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 1083, Box 3672\nAPO AP 10176", + "start_position": 28, + "end_position": 59 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Healthmap", + "start_position": 15, + "end_position": 24 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "Sheri Virrankoski will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sheri Virrankoski", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "nicholas had given sara his address: 46 89 cours franklin roosevelt, marseille", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "marseille", + "start_position": 69, + "end_position": 78 + }, + { + "entity_type": "ADDRESS", + "entity_value": "89 cours franklin roosevelt", + "start_position": 40, + "end_position": 67 + }, + { + "entity_type": "ADDRESS", + "entity_value": "46", + "start_position": 37, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "sara", + "start_position": 19, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "nicholas", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "In Israel they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Amanda DeRose points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Amanda DeRose", + "start_position": 133, + "end_position": 146 + }, + { + "entity_type": "LOCATION", + "entity_value": "Israel", + "start_position": 3, + "end_position": 9 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "Meet me at Λουτράκι 206 Vida Street\n Apt. 937\n ΣΙΛΙΚΟΥ\n Cyprus 59241", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Λουτράκι 206 Vida Street\n Apt. 937\n ΣΙΛΙΚΟΥ\n Cyprus 59241", + "start_position": 11, + "end_position": 68 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "I have lost my card 4716221853460110. Could you please block my credit card ASAP ? My name is Brittney Einarsdóttir.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brittney Einarsdóttir", + "start_position": 94, + "end_position": 115 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716221853460110", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Brosca is from Impaq International", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Impaq International", + "start_position": 15, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Brosca", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5313553129264171", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5313553129264171", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "My card 5227048524756231 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5227048524756231", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4532424071974464 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532424071974464", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "card number 4532660757336862 is lost, can you please send a new one to 27 2711 Queens Sq, Kostelec nad Orlicí, Iraq? I am in Warszawa for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Warszawa", + "start_position": 125, + "end_position": 133 + }, + { + "entity_type": "ADDRESS", + "entity_value": "27 2711 Queens Sq, Kostelec nad Orlicí, Iraq", + "start_position": 71, + "end_position": 115 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532660757336862", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by John Otila).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "John Otila", + "start_position": 58, + "end_position": 68 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email OrnellaToscani@jourrapide.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "OrnellaToscani@jourrapide.com", + "start_position": 39, + "end_position": 68 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "You can tell Jean was a huge Joseph Schneider fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joseph Schneider", + "start_position": 29, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Jean", + "start_position": 13, + "end_position": 17 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Åström is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Åström", + "start_position": 23, + "end_position": 29 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "hello i moved, please update my new address is 82 vanhamaantie 83 apt. 925 kotka ky", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "82 vanhamaantie 83 apt. 925 kotka ky", + "start_position": 47, + "end_position": 83 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "Onni shouted at Eric: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Eric", + "start_position": 16, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Onni", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "His social security number is 596-88-1225", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "596-88-1225", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 05 Tacuarembo 2365 Apt. 825 Algorta PA", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "05 Tacuarembo 2365 Apt. 825 Algorta PA", + "start_position": 63, + "end_position": 101 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "Maybe it's under Ian Sigmundsson", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ian Sigmundsson", + "start_position": 17, + "end_position": 32 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Charles Khadzhiev?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Charles Khadzhiev", + "start_position": 88, + "end_position": 105 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 30 Celso Emilio Ferreiro 90\n Suite 427\n Caspe\n Trinidad and Tobago 90850. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "30 Celso Emilio Ferreiro 90\n Suite 427\n Caspe\n Trinidad and Tobago 90850", + "start_position": 27, + "end_position": 99 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 36 ul. Asnyka Adama 82 Apt. 168 Rzeszów nan. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "36 ul. Asnyka Adama 82 Apt. 168 Rzeszów nan", + "start_position": 27, + "end_position": 70 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "Scott Barnes\n\n52 Tavcarjeva 73\n Suite 284\n Selca\n Senegal 27766\n070-073-058-Office\\,828-635-2307x09667-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "828-635-2307x09667", + "start_position": 84, + "end_position": 102 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "070-073-058", + "start_position": 64, + "end_position": 75 + }, + { + "entity_type": "ADDRESS", + "entity_value": "27766", + "start_position": 58, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "Senegal", + "start_position": 50, + "end_position": 57 + }, + { + "entity_type": "LOCATION", + "entity_value": "Selca", + "start_position": 43, + "end_position": 48 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 284", + "start_position": 32, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Tavcarjeva 73", + "start_position": 17, + "end_position": 30 + }, + { + "entity_type": "ADDRESS", + "entity_value": "52", + "start_position": 14, + "end_position": 16 + }, + { + "entity_type": "PERSON", + "entity_value": "Scott Barnes", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "The title refers to Pachergasse 64 street in BÜSCHENDORF. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Ivanović Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Ivanović Street", + "start_position": 204, + "end_position": 219 + }, + { + "entity_type": "LOCATION", + "entity_value": "BÜSCHENDORF", + "start_position": 45, + "end_position": 56 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Pachergasse 64", + "start_position": 20, + "end_position": 34 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "I have lost my card 4916447307907830. Could you please block my credit card ASAP ? My name is Carla Dam.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carla Dam", + "start_position": 94, + "end_position": 103 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916447307907830", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Who's coming to Paraguay with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Paraguay", + "start_position": 16, + "end_position": 24 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "Rafaela: \\\"Who are you?\\\"\nLaura:\\\"I\\'m Scott\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Scott", + "start_position": 39, + "end_position": 44 + }, + { + "entity_type": "PERSON", + "entity_value": "Laura", + "start_position": 26, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Rafaela", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "they're not answering at 0348 2102744", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0348 2102744", + "start_position": 25, + "end_position": 37 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add Jeffrey Cole as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jeffrey Cole", + "start_position": 46, + "end_position": 58 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "In Bangladesh they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Taylor Pusa points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Taylor Pusa", + "start_position": 137, + "end_position": 148 + }, + { + "entity_type": "LOCATION", + "entity_value": "Bangladesh", + "start_position": 3, + "end_position": 13 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "Sandra Ivanković\nCostquest\n16 34 quai Saint-Nicolas Suite 499 TOURNEFEUILLE Colombia\n322 327 102 office\n+1-177-892-0730x52646 fax\n151.081.7740x2347 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "151.081.7740x2347", + "start_position": 130, + "end_position": 147 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-177-892-0730x52646", + "start_position": 104, + "end_position": 125 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "322 327 102", + "start_position": 85, + "end_position": 96 + }, + { + "entity_type": "ADDRESS", + "entity_value": "16 34 quai Saint-Nicolas Suite 499 TOURNEFEUILLE Colombia", + "start_position": 27, + "end_position": 84 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Costquest", + "start_position": 17, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Sandra Ivanković", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "i need to add my addresses, here they are: unit 8087 box 7596\ndpo ae 50606, and 65 via lagrange 3\nlyss, nan 98711", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "65 via lagrange 3\nlyss, nan 98711", + "start_position": 80, + "end_position": 113 + }, + { + "entity_type": "ADDRESS", + "entity_value": "unit 8087 box 7596\ndpo ae 50606", + "start_position": 43, + "end_position": 74 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "My name is Joseph Beckenbauer but everyone calls me Christian", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christian", + "start_position": 52, + "end_position": 61 + }, + { + "entity_type": "PERSON", + "entity_value": "Joseph Beckenbauer", + "start_position": 11, + "end_position": 29 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "Susan Tougas, the Immunology technologist, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Immunology technologist", + "start_position": 18, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "Susan Tougas", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "Ross Rutkowski\nBooth cashier\nWise Appraisals\n64 Rua Papoula 1998\nHOLUM\n, nan\n 01344", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "64 Rua Papoula 1998\nHOLUM\n, nan\n 01344", + "start_position": 45, + "end_position": 83 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Wise Appraisals", + "start_position": 29, + "end_position": 44 + }, + { + "entity_type": "TITLE", + "entity_value": "Booth cashier", + "start_position": 15, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Ross Rutkowski", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "my zip code is 37773", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "37773", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "What is the limit for card 4539711149546636?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539711149546636", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "David Penfold listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Jonathan Talon DDS ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jonathan Talon DDS", + "start_position": 169, + "end_position": 187 + }, + { + "entity_type": "PERSON", + "entity_value": "David Penfold", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "They had 6: Amy-leigh, Elaine, Janet, Danielle, Michelle and Kyle.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kyle", + "start_position": 61, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Michelle", + "start_position": 48, + "end_position": 56 + }, + { + "entity_type": "PERSON", + "entity_value": "Danielle", + "start_position": 38, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Janet", + "start_position": 31, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Elaine", + "start_position": 23, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Amy-leigh", + "start_position": 12, + "end_position": 21 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 8/31/1970", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "8/31/1970", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 9469 9966", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "9469 9966", + "start_position": 35, + "end_position": 44 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "Jesse is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jesse", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "will my account stay active? it's under my partner's name rebecca lafontaine", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "rebecca lafontaine", + "start_position": 58, + "end_position": 76 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on 73 Emily Place St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "73 Emily Place", + "start_position": 26, + "end_position": 40 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Matthew Saibara", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Matthew Saibara", + "start_position": 58, + "end_position": 73 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Bergman is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Bergman", + "start_position": 23, + "end_position": 30 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "Velimir, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Velimir", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Mali, but Pauline just has to get laid. Don't go to town, Sandra!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sandra", + "start_position": 142, + "end_position": 148 + }, + { + "entity_type": "PERSON", + "entity_value": "Pauline", + "start_position": 94, + "end_position": 101 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mali", + "start_position": 84, + "end_position": 88 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "In Rwanda they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Sarah Mínervudóttir points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sarah Mínervudóttir", + "start_position": 133, + "end_position": 152 + }, + { + "entity_type": "LOCATION", + "entity_value": "Rwanda", + "start_position": 3, + "end_position": 9 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "As promised, here's Kian's address:\n\n70 Kaarikatu 32 Apt. 728 KAJAANI Central African Republic", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "70 Kaarikatu 32 Apt. 728 KAJAANI Central African Republic", + "start_position": 37, + "end_position": 94 + }, + { + "entity_type": "PERSON", + "entity_value": "Kian", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "David had given Bożena his address: 32 2109 Gleemoor Rd, Petrusville", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Petrusville", + "start_position": 57, + "end_position": 68 + }, + { + "entity_type": "ADDRESS", + "entity_value": "2109 Gleemoor Rd", + "start_position": 39, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "32", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Bożena", + "start_position": 16, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "David", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "Burkina Faso was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Burkina Faso", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "In Mexico they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Tracy Christensen points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tracy Christensen", + "start_position": 133, + "end_position": 150 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mexico", + "start_position": 3, + "end_position": 9 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "Daniel had given Signe his address: 21 88 Baldock Street, NICHOLASHAYNE", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "NICHOLASHAYNE", + "start_position": 58, + "end_position": 71 + }, + { + "entity_type": "ADDRESS", + "entity_value": "88 Baldock Street", + "start_position": 39, + "end_position": 56 + }, + { + "entity_type": "ADDRESS", + "entity_value": "21", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Signe", + "start_position": 17, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Daniel", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "Date: 1994-03-24 01:19:22\nName: Jennifer Olesen\nPhone: (35) 609-270", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(35) 609-270", + "start_position": 55, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Jennifer Olesen", + "start_position": 32, + "end_position": 47 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1994-03-24 01:19:22", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "The Daniel Austin version recorded for Ifi Claims Patent Services became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Ifi Claims Patent Services", + "start_position": 39, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Daniel Austin", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "the princess royal arrived at kędzierzyn-koźle this morning from honduras.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "honduras", + "start_position": 65, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "kędzierzyn-koźle", + "start_position": 30, + "end_position": 46 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4916050646364950", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916050646364950", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Jason Einarsson and starring Melikov", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Melikov", + "start_position": 89, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Jason Einarsson", + "start_position": 60, + "end_position": 75 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "17 R Família Marques 19\n Apt. 618\n Montijo\n Nicaragua 33575", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "33575", + "start_position": 54, + "end_position": 59 + }, + { + "entity_type": "LOCATION", + "entity_value": "Nicaragua", + "start_position": 44, + "end_position": 53 + }, + { + "entity_type": "LOCATION", + "entity_value": "Montijo", + "start_position": 35, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 618", + "start_position": 25, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "R Família Marques 19", + "start_position": 3, + "end_position": 23 + }, + { + "entity_type": "ADDRESS", + "entity_value": "17", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "the corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "mrs. catherine vassiliev apt. 731 96 törneby 2\ngualöv nan 27660", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "27660", + "start_position": 58, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "nan", + "start_position": 54, + "end_position": 57 + }, + { + "entity_type": "LOCATION", + "entity_value": "gualöv", + "start_position": 47, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "törneby 2", + "start_position": 37, + "end_position": 46 + }, + { + "entity_type": "ADDRESS", + "entity_value": "96", + "start_position": 34, + "end_position": 36 + }, + { + "entity_type": "ADDRESS", + "entity_value": "apt. 731", + "start_position": 25, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "catherine vassiliev", + "start_position": 5, + "end_position": 24 + }, + { + "entity_type": "PREFIX", + "entity_value": "mrs.", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "We moved here from SAINT-PRIEST", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "SAINT-PRIEST", + "start_position": 19, + "end_position": 31 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "Eric Åström listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Danny Yokoi ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Danny Yokoi", + "start_position": 167, + "end_position": 178 + }, + { + "entity_type": "PERSON", + "entity_value": "Eric Åström", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "As promised, here's Zlata's address:\n\n29 Rue de la Briqueterie 480\nWarszawa\n, nan\n Nicaragua 33649", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "29 Rue de la Briqueterie 480\nWarszawa\n, nan\n Nicaragua 33649", + "start_position": 38, + "end_position": 98 + }, + { + "entity_type": "PERSON", + "entity_value": "Zlata", + "start_position": 20, + "end_position": 25 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Please update the billing address with 63 Agip u. 96.\n Apt. 808\n Nagyváty\n Trinidad and Tobago 79370 for this card: 5234126764170999", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5234126764170999", + "start_position": 116, + "end_position": 132 + }, + { + "entity_type": "ADDRESS", + "entity_value": "63 Agip u. 96.\n Apt. 808\n Nagyváty\n Trinidad and Tobago 79370", + "start_position": 39, + "end_position": 100 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "what's your credit card? 5199467250444016", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5199467250444016", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Jeremy Oohara's Cautionary Tales. Is there a better example of unbridled creativity than early Romani?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Romani", + "start_position": 219, + "end_position": 225 + }, + { + "entity_type": "PERSON", + "entity_value": "Jeremy Oohara", + "start_position": 124, + "end_position": 137 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "Sydney Gladu will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sydney Gladu", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "Miss Gabriella Villanueva Suite 574 34 Sireli 74\nTartu TA 56325", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "56325", + "start_position": 58, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "TA", + "start_position": 55, + "end_position": 57 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tartu", + "start_position": 49, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Sireli 74", + "start_position": 39, + "end_position": 48 + }, + { + "entity_type": "ADDRESS", + "entity_value": "34", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 574", + "start_position": 26, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Gabriella Villanueva", + "start_position": 5, + "end_position": 25 + }, + { + "entity_type": "PREFIX", + "entity_value": "Miss", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Tiffany Ilić", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tiffany Ilić", + "start_position": 43, + "end_position": 55 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Perić and Rodriguez were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rodriguez", + "start_position": 59, + "end_position": 68 + }, + { + "entity_type": "PERSON", + "entity_value": "Perić", + "start_position": 49, + "end_position": 54 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "We'll meet Saturday at Ideas42, 30 Veslebakken 48, HARSTAD", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "HARSTAD", + "start_position": 51, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Veslebakken 48", + "start_position": 35, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "30", + "start_position": 32, + "end_position": 34 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ideas42", + "start_position": 23, + "end_position": 30 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Saturday", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "Lucas had given Maria his address: 16 Blæsenborgvej 5", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Blæsenborgvej 5", + "start_position": 38, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "16", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Maria", + "start_position": 16, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Lucas", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "You said your email is KarpFedorov@rhyta.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "KarpFedorov@rhyta.com", + "start_position": 23, + "end_position": 44 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "The letter arrived at Bryan and Meierigaten 206 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Bryan and Meierigaten 206", + "start_position": 22, + "end_position": 47 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "ross, can i please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "ross", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "??? Mrs. Stephanie Zamida PhD\n??? Alarmcom\n??? 04 Rua das Hortências 1428\n??? Apt. 004\n??? Americana\n??? People's Republic of China 25071", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "25071", + "start_position": 132, + "end_position": 137 + }, + { + "entity_type": "LOCATION", + "entity_value": "People's Republic of China", + "start_position": 105, + "end_position": 131 + }, + { + "entity_type": "LOCATION", + "entity_value": "Americana", + "start_position": 91, + "end_position": 100 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 004", + "start_position": 78, + "end_position": 86 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Rua das Hortências 1428", + "start_position": 50, + "end_position": 73 + }, + { + "entity_type": "ADDRESS", + "entity_value": "04", + "start_position": 47, + "end_position": 49 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Alarmcom", + "start_position": 34, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Mrs. Stephanie Zamida PhD", + "start_position": 4, + "end_position": 29 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Hafnafjörður this morning from Serbia.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Serbia", + "start_position": 61, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "Hafnafjörður", + "start_position": 30, + "end_position": 42 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in Calgary, Factset is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Factset", + "start_position": 38, + "end_position": 45 + }, + { + "entity_type": "LOCATION", + "entity_value": "Calgary", + "start_position": 29, + "end_position": 36 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "Please return to USNV Evseyev\nFPO AE 51332 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNV Evseyev\nFPO AE 51332", + "start_position": 17, + "end_position": 42 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "Stephanie Barraza, the Surgical technologist, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Surgical technologist", + "start_position": 23, + "end_position": 44 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Barraza", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "My zip code is 72664", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "72664", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "I want to add Latoya Shimasaki as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Latoya Shimasaki", + "start_position": 14, + "end_position": 30 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Brezje this morning from United Arab Emirates.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "United Arab Emirates", + "start_position": 55, + "end_position": 75 + }, + { + "entity_type": "LOCATION", + "entity_value": "Brezje", + "start_position": 30, + "end_position": 36 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "The title refers to Kaupangsstræti 98 street in Þorlákshöfn. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Boyle Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Boyle Street", + "start_position": 207, + "end_position": 219 + }, + { + "entity_type": "LOCATION", + "entity_value": "Þorlákshöfn", + "start_position": 48, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Kaupangsstræti 98", + "start_position": 20, + "end_position": 37 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "when they weren't singing about hobbits, satanic felines and interstellar journeys, they were singing about the verses from danielle blamey's cautionary tales. is there a better example of unbridled creativity than early tuininga?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "tuininga", + "start_position": 221, + "end_position": 229 + }, + { + "entity_type": "PERSON", + "entity_value": "danielle blamey", + "start_position": 124, + "end_position": 139 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "Please return to 03 Κουκάκι 112 Suite 535 ΓΕΡΜΑΣΟΓΕΙΑ Λεμεσός in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "03 Κουκάκι 112 Suite 535 ΓΕΡΜΑΣΟΓΕΙΑ Λεμεσός", + "start_position": 17, + "end_position": 61 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "She named him Brandon", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandon", + "start_position": 14, + "end_position": 21 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Turnbull Thomson this morning from Colombia.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Colombia", + "start_position": 65, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "Turnbull Thomson", + "start_position": 30, + "end_position": 46 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "Amida Technology Solutions\n\nInes and Nordahl Rolfsens vei 187", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Ines and Nordahl Rolfsens vei 187", + "start_position": 28, + "end_position": 61 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Amida Technology Solutions", + "start_position": 0, + "end_position": 26 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Kristopher Wirth\n\n49 Billeveien 122\n Apt. 813\n VEAR\n Georgia 43076", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "43076", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Georgia", + "start_position": 53, + "end_position": 60 + }, + { + "entity_type": "LOCATION", + "entity_value": "VEAR", + "start_position": 47, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 813", + "start_position": 37, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Billeveien 122", + "start_position": 21, + "end_position": 35 + }, + { + "entity_type": "ADDRESS", + "entity_value": "49", + "start_position": 18, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Kristopher Wirth", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "Here's my SSN: 536-32-3065", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "536-32-3065", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "60 Brogade 68\n Apt. 784\n Esbjerg N\n Mozambique 24925", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "24925", + "start_position": 47, + "end_position": 52 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mozambique", + "start_position": 36, + "end_position": 46 + }, + { + "entity_type": "LOCATION", + "entity_value": "Esbjerg N", + "start_position": 25, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 784", + "start_position": 15, + "end_position": 23 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Brogade 68", + "start_position": 3, + "end_position": 13 + }, + { + "entity_type": "ADDRESS", + "entity_value": "60", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Maybe it's under Logan Bykova", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Logan Bykova", + "start_position": 17, + "end_position": 29 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Uganda. Producer Kimberly Lundström explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kimberly Lundström", + "start_position": 51, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "Uganda", + "start_position": 34, + "end_position": 40 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "What's your credit card? 5266170881475288", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5266170881475288", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email OlavHansen@cuvox.de", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "OlavHansen@cuvox.de", + "start_position": 39, + "end_position": 58 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "She moved here from Honduras", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Honduras", + "start_position": 20, + "end_position": 28 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email WislawCzarnecki@superrito.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "WislawCzarnecki@superrito.com", + "start_position": 39, + "end_position": 68 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "I'm originally from Colombia", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Colombia", + "start_position": 20, + "end_position": 28 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "lilly open innovation drug discovery is the brainchild of our 3 founders: bulgakov, ali and howard. the idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "howard", + "start_position": 92, + "end_position": 98 + }, + { + "entity_type": "PERSON", + "entity_value": "ali", + "start_position": 84, + "end_position": 87 + }, + { + "entity_type": "PERSON", + "entity_value": "bulgakov", + "start_position": 74, + "end_position": 82 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "lilly open innovation drug discovery", + "start_position": 0, + "end_position": 36 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on Frørupvej 58 St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Frørupvej 58", + "start_position": 26, + "end_position": 38 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "The Eileen Sandström version recorded for Garcia-Roberson became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Garcia-Roberson", + "start_position": 42, + "end_position": 57 + }, + { + "entity_type": "PERSON", + "entity_value": "Eileen Sandström", + "start_position": 4, + "end_position": 20 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4532363482189801 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532363482189801", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4539110298497792", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539110298497792", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "How do I change my address to 76 7 rue Charles Corbeau Apt. 406, Jaworzno, Switzerland 78420 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "76 7 rue Charles Corbeau Apt. 406, Jaworzno, Switzerland 78420", + "start_position": 30, + "end_position": 92 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "eugenio is from connectedu", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "connectedu", + "start_position": 16, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "eugenio", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in Montbovon, Expert Health Data Programming Inc is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Expert Health Data Programming Inc", + "start_position": 40, + "end_position": 74 + }, + { + "entity_type": "LOCATION", + "entity_value": "Montbovon", + "start_position": 29, + "end_position": 38 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "can i speak to a real person?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "We'll meet Wednesday at Costquest, 98 Hlíðarvegur 25, Kirkjubæjarklaustur", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kirkjubæjarklaustur", + "start_position": 54, + "end_position": 73 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Hlíðarvegur 25", + "start_position": 38, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "98", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Costquest", + "start_position": 24, + "end_position": 33 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Wednesday", + "start_position": 11, + "end_position": 20 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "They're not answering at (32) 484-557", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(32) 484-557", + "start_position": 25, + "end_position": 37 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 5210402405591275 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5210402405591275", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Alexander Galarneau?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Alexander Galarneau", + "start_position": 88, + "end_position": 107 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "Arquímedes: \\\"Who are you?\\\"\nRebecca:\\\"I\\'m Daniel\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Daniel", + "start_position": 44, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "Rebecca", + "start_position": 29, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Arquímedes", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "The Xignite office is at USNV Lundberg\nFPO AA 54216", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNV Lundberg\nFPO AA 54216", + "start_position": 25, + "end_position": 51 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Xignite", + "start_position": 4, + "end_position": 11 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 65 Νοταρά 229 Apt. 141, SCHLAGLES, Madagascar 17916. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "65 Νοταρά 229 Apt. 141, SCHLAGLES, Madagascar 17916", + "start_position": 27, + "end_position": 78 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "My card 5228764195630492 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5228764195630492", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "I'm originally from Tuvalu", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Tuvalu", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Date: 1993-08-24 01:26:53\nName: Alicia Fukasawa\nPhone: 978-249-9678", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "978-249-9678", + "start_position": 55, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Alicia Fukasawa", + "start_position": 32, + "end_position": 47 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1993-08-24 01:26:53", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "Mimount, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mimount", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "\\\"I\\'m glad to hear that Kazakhstan is moving in that direction,\\\" says Rintanen.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rintanen", + "start_position": 72, + "end_position": 80 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kazakhstan", + "start_position": 25, + "end_position": 35 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "We'll meet Saturday at Weeks-Rivas, 50 Massbyntie 27, JÄRVENPÄÄ", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "JÄRVENPÄÄ", + "start_position": 54, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Massbyntie 27", + "start_position": 39, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "50", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Weeks-Rivas", + "start_position": 23, + "end_position": 34 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Saturday", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "Have you been to a Keith Ryška concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Keith Ryška", + "start_position": 19, + "end_position": 30 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "i'm originally from burkina faso", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "burkina faso", + "start_position": 20, + "end_position": 32 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Unlike the Marušić novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Marušić", + "start_position": 11, + "end_position": 18 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "so where are we meeting? there's this nice new thai place downtown. cool, what's the address? oh do they serve vegan stuff? it's in the corner of frankfurter allee 73 and edmunds street", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of frankfurter allee 73 and edmunds street", + "start_position": 132, + "end_position": 185 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "They're not answering at (91) 5676-6953", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(91) 5676-6953", + "start_position": 25, + "end_position": 39 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "card number 4916563457591933 is lost, can you please send a new one to Vesturgata 66 Lucchese Street\n Apt. 363\n Reykjavík\n Germany 21670? I am in ΠΑΡΕΚΚΛΗΣΙΑ for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ΠΑΡΕΚΚΛΗΣΙΑ", + "start_position": 146, + "end_position": 157 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Vesturgata 66 Lucchese Street\n Apt. 363\n Reykjavík\n Germany 21670", + "start_position": 71, + "end_position": 136 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916563457591933", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Winschoten: Logixdata LLC, Social Health Insights and Sigfig. \"Don't feed me planned obsolescence,\" says Gwendolyn Brkić in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Gwendolyn Brkić", + "start_position": 237, + "end_position": 252 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Sigfig", + "start_position": 186, + "end_position": 192 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Social Health Insights", + "start_position": 159, + "end_position": 181 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Logixdata LLC", + "start_position": 144, + "end_position": 157 + }, + { + "entity_type": "LOCATION", + "entity_value": "Winschoten", + "start_position": 132, + "end_position": 142 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "She named him Benjamin", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Benjamin", + "start_position": 14, + "end_position": 22 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 75 196 772", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "75 196 772", + "start_position": 35, + "end_position": 45 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "As promised, here's Karen's address:\n\nAnne-Lise and 88 Rue Galboun Ibn Al Hassen", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Anne-Lise and 88 Rue Galboun Ibn Al Hassen", + "start_position": 38, + "end_position": 80 + }, + { + "entity_type": "PERSON", + "entity_value": "Karen", + "start_position": 20, + "end_position": 25 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "The title refers to Dózsa György út 78. street in Egerlövô. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Slepička Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Slepička Street", + "start_position": 206, + "end_position": 221 + }, + { + "entity_type": "LOCATION", + "entity_value": "Egerlövô", + "start_position": 50, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Dózsa György út 78.", + "start_position": 20, + "end_position": 39 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "Madison Zetticci\n\n66 Rebbåsbakken 48\n Apt. 401\n HOLUM\n\n Norway 08093", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "08093", + "start_position": 63, + "end_position": 68 + }, + { + "entity_type": "LOCATION", + "entity_value": "Norway", + "start_position": 56, + "end_position": 62 + }, + { + "entity_type": "LOCATION", + "entity_value": "HOLUM", + "start_position": 48, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 401", + "start_position": 38, + "end_position": 46 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Rebbåsbakken 48", + "start_position": 21, + "end_position": 36 + }, + { + "entity_type": "ADDRESS", + "entity_value": "66", + "start_position": 18, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Madison Zetticci", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5506534734108406 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5506534734108406", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "Allen had given Richard his address: 08 Via Zannoni 49, Tiarno Di Sopra", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Tiarno Di Sopra", + "start_position": 56, + "end_position": 71 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via Zannoni 49", + "start_position": 40, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "08", + "start_position": 37, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "Richard", + "start_position": 16, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Allen", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "16 Via Raffaele Conforti 74\n Suite 016\n Bisegna\n Liberia 66758", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66758", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "LOCATION", + "entity_value": "Liberia", + "start_position": 49, + "end_position": 56 + }, + { + "entity_type": "LOCATION", + "entity_value": "Bisegna", + "start_position": 40, + "end_position": 47 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 016", + "start_position": 29, + "end_position": 38 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via Raffaele Conforti 74", + "start_position": 3, + "end_position": 27 + }, + { + "entity_type": "ADDRESS", + "entity_value": "16", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Unlike the Sage novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sage", + "start_position": 11, + "end_position": 15 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "My name is Robert Lund but everyone calls me Izaak", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Izaak", + "start_position": 45, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert Lund", + "start_position": 11, + "end_position": 22 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "Have you been to a Luke Curry concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Luke Curry", + "start_position": 19, + "end_position": 29 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "card number 4556762335057555 is lost, can you please send a new one to 37 Thingvallastraeti 36\nTauranga\n, nan\n 00599? I am in TYSTBERGA for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "TYSTBERGA", + "start_position": 126, + "end_position": 135 + }, + { + "entity_type": "ADDRESS", + "entity_value": "37 Thingvallastraeti 36\nTauranga\n, nan\n 00599", + "start_position": 71, + "end_position": 116 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556762335057555", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 2/25/1996", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "2/25/1996", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "It's like that since 10/12/1981", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "10/12/1981", + "start_position": 21, + "end_position": 31 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 55 Koidu 31\n Apt. 853\n Palanumäe\n Bahrain", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "55 Koidu 31\n Apt. 853\n Palanumäe\n Bahrain", + "start_position": 63, + "end_position": 104 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4539799031796088 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539799031796088", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4929360003811724 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929360003811724", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 0477 11 28 98", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0477 11 28 98", + "start_position": 35, + "end_position": 48 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "She named him Samuel", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Samuel", + "start_position": 14, + "end_position": 20 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Marc Masson's Cautionary Tales. Is there a better example of unbridled creativity than early Fukuda?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Fukuda", + "start_position": 217, + "end_position": 223 + }, + { + "entity_type": "PERSON", + "entity_value": "Marc Masson", + "start_position": 124, + "end_position": 135 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "You said your email is LeverettMoreau@rhyta.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "LeverettMoreau@rhyta.com", + "start_position": 23, + "end_position": 47 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "Vala, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Vala", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "??? Joseph Márkus\n??? Poncho App\n??? 94 Löberöd 44\n??? Suite 574\n??? FALKENBERG\n??? Montenegro 27389", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "27389", + "start_position": 95, + "end_position": 100 + }, + { + "entity_type": "LOCATION", + "entity_value": "Montenegro", + "start_position": 84, + "end_position": 94 + }, + { + "entity_type": "LOCATION", + "entity_value": "FALKENBERG", + "start_position": 69, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 574", + "start_position": 55, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Löberöd 44", + "start_position": 40, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "94", + "start_position": 37, + "end_position": 39 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Poncho App", + "start_position": 22, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "Joseph Márkus", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "I'm originally from Sri Lanka", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Sri Lanka", + "start_position": 20, + "end_position": 29 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "How do I change my address to 68 Willem Barentszweg 177 Suite 574 Geldrop Noord-Brabant for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "68 Willem Barentszweg 177 Suite 574 Geldrop Noord-Brabant", + "start_position": 30, + "end_position": 87 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "Maybe it's under Andrew Cavalcanti", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Andrew Cavalcanti", + "start_position": 17, + "end_position": 34 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 05 Machelsesteenweg 197 Apt. 094 Montzen Liège", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "05 Machelsesteenweg 197 Apt. 094 Montzen Liège", + "start_position": 47, + "end_position": 93 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Lithuania. Producer Douglas Rees explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Douglas Rees", + "start_position": 54, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Lithuania", + "start_position": 34, + "end_position": 43 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 7/8/1990", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "7/8/1990", + "start_position": 40, + "end_position": 48 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "Allen Jílek will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Allen Jílek", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 64 69 Rue de Kairouan\nNatal\n, RN\n El Salvador 08220", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "64 69 Rue de Kairouan\nNatal\n, RN\n El Salvador 08220", + "start_position": 47, + "end_position": 98 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "Who's coming to South Korea with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "South Korea", + "start_position": 16, + "end_position": 27 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "celebrating its 10th year in vancouver, firstpoint inc is a 501(c)3 that invites songwriters from around the world to texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "firstpoint inc", + "start_position": 40, + "end_position": 54 + }, + { + "entity_type": "LOCATION", + "entity_value": "vancouver", + "start_position": 29, + "end_position": 38 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "What is the limit for card 5466317045020405?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5466317045020405", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "Niklas spent a year at Citysourced as the assistant to Andrew Turcotte MD, and the following year at Castle Biosciences in Howick, which later became North American Van Lines in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "North American Van Lines", + "start_position": 150, + "end_position": 174 + }, + { + "entity_type": "LOCATION", + "entity_value": "Howick", + "start_position": 123, + "end_position": 129 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Castle Biosciences", + "start_position": 101, + "end_position": 119 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrew Turcotte MD", + "start_position": 55, + "end_position": 73 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Citysourced", + "start_position": 23, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Niklas", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "Name: Phillip Grant\nAddress: PSC 8139, Box 3699\nAPO AE 99874", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 8139, Box 3699\nAPO AE 99874", + "start_position": 36, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Phillip Grant", + "start_position": 9, + "end_position": 22 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "Follow up with William ten Pas in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "William ten Pas", + "start_position": 15, + "end_position": 30 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "Have you been to a John Þórðarson concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "John Þórðarson", + "start_position": 19, + "end_position": 33 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: Vidica and Via Roma 41", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Vidica and Via Roma 41", + "start_position": 63, + "end_position": 85 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "What is the limit for card 5363983378415522?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5363983378415522", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "god gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "inessa: \\\"who are you?\\\"\njasmine:\\\"i\\'m lisa\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "lisa", + "start_position": 40, + "end_position": 44 + }, + { + "entity_type": "PERSON", + "entity_value": "jasmine", + "start_position": 25, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "inessa", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "His social security number is 304-33-4965", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "304-33-4965", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "37 Melum 50\n Apt. 241\n Finnbogastaðir\n Spain 96857", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "96857", + "start_position": 45, + "end_position": 50 + }, + { + "entity_type": "LOCATION", + "entity_value": "Spain", + "start_position": 39, + "end_position": 44 + }, + { + "entity_type": "LOCATION", + "entity_value": "Finnbogastaðir", + "start_position": 23, + "end_position": 37 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 241", + "start_position": 13, + "end_position": 21 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Melum 50", + "start_position": 3, + "end_position": 11 + }, + { + "entity_type": "ADDRESS", + "entity_value": "37", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "You said your email is AneHansen@cuvox.de. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "AneHansen@cuvox.de", + "start_position": 23, + "end_position": 41 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "Bridget Frandsen\nFood cooking machine operator\nKash n' Karry\n34 ul. Zuchów 65\n Apt. 291\n Dąbrowa Górnicza\n South Africa 08057", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "34 ul. Zuchów 65\n Apt. 291\n Dąbrowa Górnicza\n South Africa 08057", + "start_position": 61, + "end_position": 125 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Kash n' Karry", + "start_position": 47, + "end_position": 60 + }, + { + "entity_type": "TITLE", + "entity_value": "Food cooking machine operator", + "start_position": 17, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Bridget Frandsen", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "follow up with david fülöp in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "david fülöp", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "they're not answering at (03) 5327 5996", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(03) 5327 5996", + "start_position": 25, + "end_position": 39 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "I have lost my card 4532632283182094. Could you please block my credit card ASAP ? My name is David Mauer.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "David Mauer", + "start_position": 94, + "end_position": 105 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532632283182094", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "My driver's license number is 50473044", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "50473044", + "start_position": 30, + "end_position": 38 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 6/28/1939", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "6/28/1939", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "Hi Fábio, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB24DTYM14716824328364", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB24DTYM14716824328364", + "start_position": 97, + "end_position": 119 + }, + { + "entity_type": "PERSON", + "entity_value": "Fábio", + "start_position": 3, + "end_position": 8 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "We moved here from ARMINGHALL", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ARMINGHALL", + "start_position": 19, + "end_position": 29 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "Just posted a photo http://www.KaraokeExchange.cz/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://www.KaraokeExchange.cz/", + "start_position": 20, + "end_position": 50 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Willis and Green were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Green", + "start_position": 60, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Willis", + "start_position": 49, + "end_position": 55 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "Mrs. Brittany Voronov Apt. 338 32 216 Menzies Street\nRotokauri nan 88775", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "88775", + "start_position": 67, + "end_position": 72 + }, + { + "entity_type": "ADDRESS", + "entity_value": "nan", + "start_position": 63, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Rotokauri", + "start_position": 53, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "216 Menzies Street", + "start_position": 34, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "32", + "start_position": 31, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 338", + "start_position": 22, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Brittany Voronov", + "start_position": 5, + "end_position": 21 + }, + { + "entity_type": "PREFIX", + "entity_value": "Mrs.", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "Unlike the Vogt novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Vogt", + "start_position": 11, + "end_position": 15 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Nicholas Heiðarsson).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nicholas Heiðarsson", + "start_position": 58, + "end_position": 77 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "recargo is the brainchild of our 3 founders: smit, zhang and edwards. the idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "edwards", + "start_position": 61, + "end_position": 68 + }, + { + "entity_type": "PERSON", + "entity_value": "zhang", + "start_position": 51, + "end_position": 56 + }, + { + "entity_type": "PERSON", + "entity_value": "smit", + "start_position": 45, + "end_position": 49 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "recargo", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "As promised, here's Hleb's address:\n\nUnit 8505 Box 3866\nDPO AP 93558", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 8505 Box 3866\nDPO AP 93558", + "start_position": 37, + "end_position": 68 + }, + { + "entity_type": "PERSON", + "entity_value": "Hleb", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "??? Jessica Kudou\n??? Onstar\n??? 71 110 Rue du Koweit\n??? Apt. 068\n??? Cite Des Martyrs\n??? Cape Verde 12844", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "12844", + "start_position": 103, + "end_position": 108 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cape Verde", + "start_position": 92, + "end_position": 102 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cite Des Martyrs", + "start_position": 71, + "end_position": 87 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 068", + "start_position": 58, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "110 Rue du Koweit", + "start_position": 36, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "71", + "start_position": 33, + "end_position": 35 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Onstar", + "start_position": 22, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Jessica Kudou", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Palestine. Producer Jennifer Hussain explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jennifer Hussain", + "start_position": 54, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "Palestine", + "start_position": 34, + "end_position": 43 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Dornberk: 6Sigma, Taylor-Jones and Lilly Open Innovation Drug Discovery. \"Don't feed me planned obsolescence,\" says David Annear in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "David Annear", + "start_position": 248, + "end_position": 260 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Lilly Open Innovation Drug Discovery", + "start_position": 167, + "end_position": 203 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Taylor-Jones", + "start_position": 150, + "end_position": 162 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "6Sigma", + "start_position": 142, + "end_position": 148 + }, + { + "entity_type": "LOCATION", + "entity_value": "Dornberk", + "start_position": 132, + "end_position": 140 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "45 Chausseestr. 32\n Suite 772\n Ahrensburg\n Saint Kitts and Nevis 05986", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "05986", + "start_position": 65, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "Saint Kitts and Nevis", + "start_position": 43, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "Ahrensburg", + "start_position": 31, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 772", + "start_position": 20, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Chausseestr. 32", + "start_position": 3, + "end_position": 18 + }, + { + "entity_type": "ADDRESS", + "entity_value": "45", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Name: Stephanie Talon\nAddress: the corner of Gumpendorfer Strasse 44 and Bašić Street", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Gumpendorfer Strasse 44 and Bašić Street", + "start_position": 38, + "end_position": 92 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Talon", + "start_position": 9, + "end_position": 24 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "My zip code is 29960", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "29960", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "Sas is the brainchild of our 3 founders: Turgeon, Guerra and Ewing. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ewing", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Guerra", + "start_position": 50, + "end_position": 56 + }, + { + "entity_type": "PERSON", + "entity_value": "Turgeon", + "start_position": 41, + "end_position": 48 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Sas", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call (81) 3570-7492", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(81) 3570-7492", + "start_position": 35, + "end_position": 49 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Allen Tazuka?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Allen Tazuka", + "start_position": 88, + "end_position": 100 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "She moved here from Thailand", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Thailand", + "start_position": 20, + "end_position": 28 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Marianne is from Yahoo", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Yahoo", + "start_position": 17, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Marianne", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "Have you been to a Gary Mikaelsen concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Gary Mikaelsen", + "start_position": 19, + "end_position": 33 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "sometimes people call me owen", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "owen", + "start_position": 25, + "end_position": 29 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "Unlike the Lovrić novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lovrić", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Slovenia, but Klaudia just has to get laid. Don't go to town, Charlotte!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Charlotte", + "start_position": 146, + "end_position": 155 + }, + { + "entity_type": "PERSON", + "entity_value": "Klaudia", + "start_position": 98, + "end_position": 105 + }, + { + "entity_type": "LOCATION", + "entity_value": "Slovenia", + "start_position": 84, + "end_position": 92 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to Josefine and Rua Soldado Joaquim Xavier 1471. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Josefine and Rua Soldado Joaquim Xavier 1471", + "start_position": 27, + "end_position": 71 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "Have you been to a Barbara Carvalho concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Barbara Carvalho", + "start_position": 19, + "end_position": 35 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 5424211793672056 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5424211793672056", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4716458563493169", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716458563493169", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "She named him Timothy", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Timothy", + "start_position": 14, + "end_position": 21 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "Here's my SSN: 816-25-1400", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "816-25-1400", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "Kai spent a year at Merrill Corp. as the assistant to Stephanie Dolgorukova, and the following year at Nielsen in Kalatsova, which later became Ecodesk in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Ecodesk", + "start_position": 144, + "end_position": 151 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kalatsova", + "start_position": 114, + "end_position": 123 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Nielsen", + "start_position": 103, + "end_position": 110 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Dolgorukova", + "start_position": 54, + "end_position": 75 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Merrill Corp.", + "start_position": 20, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Kai", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "What's your email? VitoriaDiasCunha@fleckens.hu", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "VitoriaDiasCunha@fleckens.hu", + "start_position": 19, + "end_position": 47 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "Seth had given Irma his address: 70 Κουκάκι 112, ΓΕΡΜΑΣΟΓΕΙΑ", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ΓΕΡΜΑΣΟΓΕΙΑ", + "start_position": 49, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Κουκάκι 112", + "start_position": 36, + "end_position": 47 + }, + { + "entity_type": "ADDRESS", + "entity_value": "70", + "start_position": 33, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Irma", + "start_position": 15, + "end_position": 19 + }, + { + "entity_type": "PERSON", + "entity_value": "Seth", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "Ms. Alicia Laaksonen\nThink Computer Corporation\nLargo Prazeres 26 Christensen Street\n Apt. 485\n Picoto\n Singapore 72705\n046 406 6044 office\n2546712361 fax\n062-085-9260x155 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "062-085-9260x155", + "start_position": 155, + "end_position": 171 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "2546712361", + "start_position": 140, + "end_position": 150 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "046 406 6044", + "start_position": 120, + "end_position": 132 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Largo Prazeres 26 Christensen Street\n Apt. 485\n Picoto\n Singapore 72705", + "start_position": 48, + "end_position": 119 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Think Computer Corporation", + "start_position": 21, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Ms. Alicia Laaksonen", + "start_position": 0, + "end_position": 20 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "the cindy thygesen version recorded for caresetcom became the first celebrity recording by a classical musician to sell one million copies. the song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "caresetcom", + "start_position": 40, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "cindy thygesen", + "start_position": 4, + "end_position": 18 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Finland, but Paul just has to get laid. Don't go to town, Heather!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Heather", + "start_position": 142, + "end_position": 149 + }, + { + "entity_type": "PERSON", + "entity_value": "Paul", + "start_position": 97, + "end_position": 101 + }, + { + "entity_type": "LOCATION", + "entity_value": "Finland", + "start_position": 84, + "end_position": 91 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 3b20:9a3a:1b2f:7ce:9ef1:4787:85fc:261e blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "3b20:9a3a:1b2f:7ce:9ef1:4787:85fc:261e", + "start_position": 50, + "end_position": 88 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5286285959496390 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5286285959496390", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "The Sap office is at 66 137 Sim Street\nSušice 1\n, PL\n Algeria 48354", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66 137 Sim Street\nSušice 1\n, PL\n Algeria 48354", + "start_position": 21, + "end_position": 67 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Sap", + "start_position": 4, + "end_position": 7 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Name: Patricia Sleutjes\nAddress: 17 251 Charilaou Trikoupi Str.\n Suite 108\n Pigenia\n Montenegro 57384", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "17 251 Charilaou Trikoupi Str.\n Suite 108\n Pigenia\n Montenegro 57384", + "start_position": 40, + "end_position": 108 + }, + { + "entity_type": "PERSON", + "entity_value": "Patricia Sleutjes", + "start_position": 9, + "end_position": 26 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name John Kozłowska", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "John Kozłowska", + "start_position": 58, + "end_position": 72 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Kimberly Svendsen and starring Janković", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Janković", + "start_position": 91, + "end_position": 99 + }, + { + "entity_type": "PERSON", + "entity_value": "Kimberly Svendsen", + "start_position": 60, + "end_position": 77 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Charles van Beers and starring Lilja", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lilja", + "start_position": 91, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Charles van Beers", + "start_position": 60, + "end_position": 77 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Yumika is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Yumika", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "A tribute to Melinda Koertig ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Melinda Koertig", + "start_position": 13, + "end_position": 28 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "please return to 43 p.o. box 178\nwarszawa\n, nan\n democratic republic of the congo 31420 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "43 p.o. box 178\nwarszawa\n, nan\n democratic republic of the congo 31420", + "start_position": 17, + "end_position": 87 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "I'm originally from East Timor", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "East Timor", + "start_position": 20, + "end_position": 30 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Chad. Producer Fernando Brabec explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Fernando Brabec", + "start_position": 49, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "Chad", + "start_position": 34, + "end_position": 38 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "My zip code is 29687", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "29687", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Steven Abril and starring Bang", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Bang", + "start_position": 86, + "end_position": 90 + }, + { + "entity_type": "PERSON", + "entity_value": "Steven Abril", + "start_position": 60, + "end_position": 72 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Charles had given Vala his address: 99 Suensaarenkatu 22, AAPAJÄRVI", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "AAPAJÄRVI", + "start_position": 58, + "end_position": 67 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suensaarenkatu 22", + "start_position": 39, + "end_position": 56 + }, + { + "entity_type": "ADDRESS", + "entity_value": "99", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Vala", + "start_position": 18, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Charles", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "When: 1970-11-23 02:26:26\nWhere: Klirou Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Klirou", + "start_position": 33, + "end_position": 39 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1970-11-23 02:26:26", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "I have lost my card 4916477240895305. Could you please block my credit card ASAP ? My name is Sarah Iwase.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sarah Iwase", + "start_position": 94, + "end_position": 105 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916477240895305", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "she named him randy", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "randy", + "start_position": 14, + "end_position": 19 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "celebrating its 10th year in edewecht, nationwide mutual insurance company is a 501(c)3 that invites songwriters from around the world to texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "nationwide mutual insurance company", + "start_position": 39, + "end_position": 74 + }, + { + "entity_type": "LOCATION", + "entity_value": "edewecht", + "start_position": 29, + "end_position": 37 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "They're not answering at 082 173 2759", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "082 173 2759", + "start_position": 25, + "end_position": 37 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "I want to add Scott Sergeyev as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Scott Sergeyev", + "start_position": 14, + "end_position": 28 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4929470803772669", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929470803772669", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to USNS Björklund\nFPO AP 07688. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNS Björklund\nFPO AP 07688", + "start_position": 27, + "end_position": 54 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "A tribute to Jean Angelo ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jean Angelo", + "start_position": 13, + "end_position": 24 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "my zip code is 35238", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "35238", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on Via Santa Teresa degli Scalzi 71 St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Via Santa Teresa degli Scalzi 71", + "start_position": 26, + "end_position": 58 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "Hi John, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB75RKJD46049068875686", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB75RKJD46049068875686", + "start_position": 96, + "end_position": 118 + }, + { + "entity_type": "PERSON", + "entity_value": "John", + "start_position": 3, + "end_position": 7 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "??? Thomas Gomes\n??? Dun Bradstreet\n??? 02 P.O. Box 175\n??? Apt. 016\n??? Aasiaat\n??? Rwanda 53434", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "53434", + "start_position": 93, + "end_position": 98 + }, + { + "entity_type": "LOCATION", + "entity_value": "Rwanda", + "start_position": 86, + "end_position": 92 + }, + { + "entity_type": "LOCATION", + "entity_value": "Aasiaat", + "start_position": 74, + "end_position": 81 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 016", + "start_position": 61, + "end_position": 69 + }, + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 175", + "start_position": 44, + "end_position": 56 + }, + { + "entity_type": "ADDRESS", + "entity_value": "02", + "start_position": 41, + "end_position": 43 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Dun Bradstreet", + "start_position": 21, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Thomas Gomes", + "start_position": 4, + "end_position": 16 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "76 Boriñaur enparantza 29\n Apt. 311\n Campos\n Solomon Islands 32262", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "32262", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Solomon Islands", + "start_position": 45, + "end_position": 60 + }, + { + "entity_type": "LOCATION", + "entity_value": "Campos", + "start_position": 37, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 311", + "start_position": 27, + "end_position": 35 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Boriñaur enparantza 29", + "start_position": 3, + "end_position": 25 + }, + { + "entity_type": "ADDRESS", + "entity_value": "76", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 70 Wesselényi u. 79.\nJevícko, PA 79210", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "70 Wesselényi u. 79.\nJevícko, PA 79210", + "start_position": 26, + "end_position": 64 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Maybe it's under Kimberly Wolinski", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kimberly Wolinski", + "start_position": 17, + "end_position": 34 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add James Þóroddsson as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "James Þóroddsson", + "start_position": 46, + "end_position": 62 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is Unit 0524 Box 3095\nDPO AP 41340", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 0524 Box 3095\nDPO AP 41340", + "start_position": 47, + "end_position": 78 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "In United States they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Alex Balatková points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Alex Balatková", + "start_position": 140, + "end_position": 154 + }, + { + "entity_type": "LOCATION", + "entity_value": "United States", + "start_position": 3, + "end_position": 16 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "I want to add Randy Shaw as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Randy Shaw", + "start_position": 14, + "end_position": 24 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "My website is http://MoralBuilder.es/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://MoralBuilder.es/", + "start_position": 14, + "end_position": 37 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to Motochika and Via Scala 50. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Motochika and Via Scala 50", + "start_position": 27, + "end_position": 53 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "Danielle Morishita\n\n07 Simavikveien 231\n Apt. 585\n MOSS\n Turkey 05557\n975 97 287-Office\\,(227)664-8546x506-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(227)664-8546x506", + "start_position": 89, + "end_position": 106 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "975 97 287", + "start_position": 70, + "end_position": 80 + }, + { + "entity_type": "ADDRESS", + "entity_value": "05557", + "start_position": 64, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "Turkey", + "start_position": 57, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "MOSS", + "start_position": 51, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 585", + "start_position": 41, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Simavikveien 231", + "start_position": 23, + "end_position": 39 + }, + { + "entity_type": "ADDRESS", + "entity_value": "07", + "start_position": 20, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Danielle Morishita", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "Who's coming to Democratic Republic of the Congo with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Democratic Republic of the Congo", + "start_position": 16, + "end_position": 48 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "hello i moved, please update my new address is 66 gamla svedalavägen 75 suite 291, calino, republic of ireland 94165", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66 gamla svedalavägen 75 suite 291, calino, republic of ireland 94165", + "start_position": 47, + "end_position": 116 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "??? Jonathan Hertzog\n??? Appallicious\n??? 35 Σκαφίδια 5\n??? Suite 858\n??? ΠΑΤΡΙΚΙ\n??? Botswana 47378", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "47378", + "start_position": 95, + "end_position": 100 + }, + { + "entity_type": "LOCATION", + "entity_value": "Botswana", + "start_position": 86, + "end_position": 94 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΠΑΤΡΙΚΙ", + "start_position": 74, + "end_position": 81 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 858", + "start_position": 60, + "end_position": 69 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Σκαφίδια 5", + "start_position": 45, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "35", + "start_position": 42, + "end_position": 44 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Appallicious", + "start_position": 25, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Jonathan Hertzog", + "start_position": 4, + "end_position": 20 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "We moved here from Dohma", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Dohma", + "start_position": 19, + "end_position": 24 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "Here's my SSN: 455-97-2191", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "455-97-2191", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "The title refers to 14 Rue Aghlab street in Cite Bain Maure Ben Azouz. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Gordon Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Gordon Street", + "start_position": 217, + "end_position": 230 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cite Bain Maure Ben Azouz", + "start_position": 44, + "end_position": 69 + }, + { + "entity_type": "ADDRESS", + "entity_value": "14 Rue Aghlab", + "start_position": 20, + "end_position": 33 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "My zip code is 70637", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "70637", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Laos. Producer Donna Sigmundsson explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Donna Sigmundsson", + "start_position": 49, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Laos", + "start_position": 34, + "end_position": 38 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "Golden Helix\n\n21 José matía 66 Apt. 617 Paterna del Madera Latvia", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "21 José matía 66 Apt. 617 Paterna del Madera Latvia", + "start_position": 14, + "end_position": 65 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Golden Helix", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 5210402405591275", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5210402405591275", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "??? Rebecca Jessen\n??? Asset4\n??? 74 Hauptplatz 69\n??? Apt. 944\n??? OBERMAYRHOF\n??? Senegal 16027", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "16027", + "start_position": 92, + "end_position": 97 + }, + { + "entity_type": "LOCATION", + "entity_value": "Senegal", + "start_position": 84, + "end_position": 91 + }, + { + "entity_type": "LOCATION", + "entity_value": "OBERMAYRHOF", + "start_position": 68, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 944", + "start_position": 55, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Hauptplatz 69", + "start_position": 37, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "74", + "start_position": 34, + "end_position": 36 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Asset4", + "start_position": 23, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Rebecca Jessen", + "start_position": 4, + "end_position": 18 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on 136 Xanthoudidou Street St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "136 Xanthoudidou Street", + "start_position": 26, + "end_position": 49 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Rosing is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rosing", + "start_position": 23, + "end_position": 29 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Edewecht: Onstar, Nonprofitmetrics and Getraised. \"Don't feed me planned obsolescence,\" says Michael Robinson in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michael Robinson", + "start_position": 225, + "end_position": 241 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Getraised", + "start_position": 171, + "end_position": 180 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Nonprofitmetrics", + "start_position": 150, + "end_position": 166 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Onstar", + "start_position": 142, + "end_position": 148 + }, + { + "entity_type": "LOCATION", + "entity_value": "Edewecht", + "start_position": 132, + "end_position": 140 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Hello, this is Mr. David Hrůza. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "David Hrůza", + "start_position": 19, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "she moved here from dominican republic", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "dominican republic", + "start_position": 20, + "end_position": 38 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Kenya was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kenya", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "It's like that since 5/25/1934", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "5/25/1934", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "I have lost my card 5213406777030033. Could you please block my credit card ASAP ? My name is Scott Tury.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Scott Tury", + "start_position": 94, + "end_position": 104 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5213406777030033", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4916455135904838", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916455135904838", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "Brian had given Carla his address: 21 Hunsrødsletta 7, SANDEFJORD", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "SANDEFJORD", + "start_position": 55, + "end_position": 65 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Hunsrødsletta 7", + "start_position": 38, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "21", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Carla", + "start_position": 16, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Brian", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "i can't browse to your site, keep getting address 109.38.226.13 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "109.38.226.13", + "start_position": 50, + "end_position": 63 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "dr. gregory is a 50 year old man who grew up in breiðdalsvík.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "breiðdalsvík", + "start_position": 48, + "end_position": 60 + }, + { + "entity_type": "PERSON", + "entity_value": "gregory", + "start_position": 4, + "end_position": 11 + }, + { + "entity_type": "PERSON", + "entity_value": "dr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "It's like that since 5/8/1959", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "5/8/1959", + "start_position": 21, + "end_position": 29 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "My driver's license number is U62928788557186", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "U62928788557186", + "start_position": 30, + "end_position": 45 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "His social security number is 273-11-2517", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "273-11-2517", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Just posted a photo https://www.USFirm.co.nz/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://www.USFirm.co.nz/", + "start_position": 20, + "end_position": 45 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Paraguay. Producer Francisco Umkhayev explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Francisco Umkhayev", + "start_position": 53, + "end_position": 71 + }, + { + "entity_type": "LOCATION", + "entity_value": "Paraguay", + "start_position": 34, + "end_position": 42 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5378797340791478 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5378797340791478", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4485167276322792 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485167276322792", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "As promised, here's Unnsteinn's address:\n\n70 Algade 49\nPreserje\n, nan\n 23861", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "70 Algade 49\nPreserje\n, nan\n 23861", + "start_position": 42, + "end_position": 76 + }, + { + "entity_type": "PERSON", + "entity_value": "Unnsteinn", + "start_position": 20, + "end_position": 29 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Cameron Szalai", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cameron Szalai", + "start_position": 58, + "end_position": 72 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "She named him Keith", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Keith", + "start_position": 14, + "end_position": 19 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Luis Fiorentino's Cautionary Tales. Is there a better example of unbridled creativity than early Andersson?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Andersson", + "start_position": 221, + "end_position": 230 + }, + { + "entity_type": "PERSON", + "entity_value": "Luis Fiorentino", + "start_position": 124, + "end_position": 139 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at København K this morning from Kuwait.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kuwait", + "start_position": 60, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "København K", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5230670100023028", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5230670100023028", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Kelli Carrasquill", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kelli Carrasquill", + "start_position": 43, + "end_position": 60 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4929049941206325 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929049941206325", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "Beth Tretyakov\n\n96 Via Moiariello 102\n Suite 850\n Calascibetta\n Czech Republic 07512\n0319 3649187-Office\\,001-204-821-0538x16944-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-204-821-0538x16944", + "start_position": 106, + "end_position": 128 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0319 3649187", + "start_position": 85, + "end_position": 97 + }, + { + "entity_type": "ADDRESS", + "entity_value": "07512", + "start_position": 79, + "end_position": 84 + }, + { + "entity_type": "LOCATION", + "entity_value": "Czech Republic", + "start_position": 64, + "end_position": 78 + }, + { + "entity_type": "LOCATION", + "entity_value": "Calascibetta", + "start_position": 50, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 850", + "start_position": 39, + "end_position": 48 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via Moiariello 102", + "start_position": 19, + "end_position": 37 + }, + { + "entity_type": "ADDRESS", + "entity_value": "96", + "start_position": 16, + "end_position": 18 + }, + { + "entity_type": "PERSON", + "entity_value": "Beth Tretyakov", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Robin Umkhayev", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Robin Umkhayev", + "start_position": 58, + "end_position": 72 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "i have lost my card 4539536690763649. could you please block my credit card asap ? my name is janice beneventi.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "janice beneventi", + "start_position": 94, + "end_position": 110 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539536690763649", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Maldives. Producer Renee Andersson explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Renee Andersson", + "start_position": 53, + "end_position": 68 + }, + { + "entity_type": "LOCATION", + "entity_value": "Maldives", + "start_position": 34, + "end_position": 42 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add Patrick Olsen as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Patrick Olsen", + "start_position": 46, + "end_position": 59 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "Sometimes people call me Alessandro", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Alessandro", + "start_position": 25, + "end_position": 35 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "Please update the billing address with 64 R São Silvestre 2 Suite 242 Pardieiros Marshall Islands for this card: 4716178104011938", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716178104011938", + "start_position": 113, + "end_position": 129 + }, + { + "entity_type": "ADDRESS", + "entity_value": "64 R São Silvestre 2 Suite 242 Pardieiros Marshall Islands", + "start_position": 39, + "end_position": 97 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "one of the most depressing songs on the list. he's injured from the waist down from nauru, but petra just has to get laid. don't go to town, omar!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "omar", + "start_position": 141, + "end_position": 145 + }, + { + "entity_type": "PERSON", + "entity_value": "petra", + "start_position": 95, + "end_position": 100 + }, + { + "entity_type": "LOCATION", + "entity_value": "nauru", + "start_position": 84, + "end_position": 89 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "What is the limit for card 5482847792016693?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5482847792016693", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "Jonathan Ukkonen\n\n14 R Nossa Senhora Graça 75\n Apt. 460\n Jusam\n Georgia 53386", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "53386", + "start_position": 72, + "end_position": 77 + }, + { + "entity_type": "LOCATION", + "entity_value": "Georgia", + "start_position": 64, + "end_position": 71 + }, + { + "entity_type": "LOCATION", + "entity_value": "Jusam", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 460", + "start_position": 47, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "R Nossa Senhora Graça 75", + "start_position": 21, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "14", + "start_position": 18, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Jonathan Ukkonen", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "They had 6: Hans, Linda, Amber, Andrew, Brendan and Amanda.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Amanda", + "start_position": 52, + "end_position": 58 + }, + { + "entity_type": "PERSON", + "entity_value": "Brendan", + "start_position": 40, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrew", + "start_position": 32, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Amber", + "start_position": 25, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Linda", + "start_position": 18, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Hans", + "start_position": 12, + "end_position": 16 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Mr. Ortiz is a 50 year old man who grew up in Moknine.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Moknine", + "start_position": 46, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Ortiz", + "start_position": 4, + "end_position": 9 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "Just posted a photo https://www.BowlingCourse.se/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://www.BowlingCourse.se/", + "start_position": 20, + "end_position": 49 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "Please update the billing address with 25 51 Karaka Street\nApeldoorn, GE 23130 for this card: 4556771261462002", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556771261462002", + "start_position": 94, + "end_position": 110 + }, + { + "entity_type": "ADDRESS", + "entity_value": "25 51 Karaka Street\nApeldoorn, GE 23130", + "start_position": 39, + "end_position": 78 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "Meet me at 68 114 Afroditis Street Suite 921 Nicosia Indonesia", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "68 114 Afroditis Street Suite 921 Nicosia Indonesia", + "start_position": 11, + "end_position": 62 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "Calvin Sagese listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Angel Ottarsdóttir ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Angel Ottarsdóttir", + "start_position": 169, + "end_position": 187 + }, + { + "entity_type": "PERSON", + "entity_value": "Calvin Sagese", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "\\\"I\\'m glad to hear that Zambia is moving in that direction,\\\" says Shcherbakova.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Shcherbakova", + "start_position": 68, + "end_position": 80 + }, + { + "entity_type": "LOCATION", + "entity_value": "Zambia", + "start_position": 25, + "end_position": 31 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": ">Tonya Angelo\n>Jj Keller\n>Katherine Acevedo\n>95 Bergshaugen 43\n>Apt. 680\n>FOSNAVÅG\n>Dominica 16619", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "16619", + "start_position": 93, + "end_position": 98 + }, + { + "entity_type": "LOCATION", + "entity_value": "Dominica", + "start_position": 84, + "end_position": 92 + }, + { + "entity_type": "LOCATION", + "entity_value": "FOSNAVÅG", + "start_position": 74, + "end_position": 82 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 680", + "start_position": 64, + "end_position": 72 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Bergshaugen 43", + "start_position": 48, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "95", + "start_position": 45, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Katherine Acevedo", + "start_position": 26, + "end_position": 43 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Jj Keller", + "start_position": 15, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Tonya Angelo", + "start_position": 1, + "end_position": 13 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "It's like that since 12/12/1938", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "12/12/1938", + "start_position": 21, + "end_position": 31 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "She was born on 5/11/1993. Her maiden name is Torres", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Torres", + "start_position": 46, + "end_position": 52 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "5/11/1993", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Donald had given Bruno his address: 47 231 Lawson Street, Glenross", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Glenross", + "start_position": 58, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "231 Lawson Street", + "start_position": 39, + "end_position": 56 + }, + { + "entity_type": "ADDRESS", + "entity_value": "47", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Bruno", + "start_position": 17, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Donald", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "his social security number is 661-49-0133", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "661-49-0133", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "My credit card 4929218835001304 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929218835001304", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "In Tanzania they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Jamie Schiavone points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jamie Schiavone", + "start_position": 135, + "end_position": 150 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tanzania", + "start_position": 3, + "end_position": 11 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "??? George Friis\n??? Accenture\n??? 97 Brixtonlaan 132\n??? Suite 723\n??? Chastre\n??? Nepal 42524", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "42524", + "start_position": 90, + "end_position": 95 + }, + { + "entity_type": "LOCATION", + "entity_value": "Nepal", + "start_position": 84, + "end_position": 89 + }, + { + "entity_type": "LOCATION", + "entity_value": "Chastre", + "start_position": 72, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 723", + "start_position": 58, + "end_position": 67 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Brixtonlaan 132", + "start_position": 38, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "97", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Accenture", + "start_position": 21, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "George Friis", + "start_position": 4, + "end_position": 16 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Robert Beverdam lives at 38 C/ Señores Curas 88, Villafranca del Cid", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Villafranca del Cid", + "start_position": 49, + "end_position": 68 + }, + { + "entity_type": "ADDRESS", + "entity_value": "C/ Señores Curas 88", + "start_position": 28, + "end_position": 47 + }, + { + "entity_type": "ADDRESS", + "entity_value": "38", + "start_position": 25, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert Beverdam", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "When: 1983-01-24 20:39:34\nWhere: Kraków Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kraków", + "start_position": 33, + "end_position": 39 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1983-01-24 20:39:34", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "Meet me at USCGC Kristjánsdóttir\nFPO AP 60677", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USCGC Kristjánsdóttir\nFPO AP 60677", + "start_position": 11, + "end_position": 45 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "I'm originally from Nauru", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Nauru", + "start_position": 20, + "end_position": 25 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Michelle Jozić\n\n03 Strandalléen 61\n Suite 493\n Harpelunde\n Barbados 01683", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "01683", + "start_position": 68, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "Barbados", + "start_position": 59, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "Harpelunde", + "start_position": 47, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 493", + "start_position": 36, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Strandalléen 61", + "start_position": 19, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "03", + "start_position": 16, + "end_position": 18 + }, + { + "entity_type": "PERSON", + "entity_value": "Michelle Jozić", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "Taylor Millar, the Liquid waste treatment plant and system operator, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Liquid waste treatment plant and system operator", + "start_position": 19, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Taylor Millar", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: PSC 1139, Box 7638\nAPO AP 94917, and 35 Herrería 6\nBudel-Dorplein, NB 26538", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "35 Herrería 6\nBudel-Dorplein, NB 26538", + "start_position": 80, + "end_position": 118 + }, + { + "entity_type": "ADDRESS", + "entity_value": "PSC 1139, Box 7638\nAPO AP 94917", + "start_position": 43, + "end_position": 74 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: 85 Kongshøj Allé 70\n Apt. 252\n Kruså\n Georgia, and 32 Pernilles vei 115 Apt. 714 OSLO nan", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "32 Pernilles vei 115 Apt. 714 OSLO nan", + "start_position": 94, + "end_position": 132 + }, + { + "entity_type": "ADDRESS", + "entity_value": "85 Kongshøj Allé 70\n Apt. 252\n Kruså\n Georgia", + "start_position": 43, + "end_position": 88 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "Maybe it's under Paula Bennett", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Paula Bennett", + "start_position": 17, + "end_position": 30 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: PSC 7300, Box 8726\nAPO AP 95612", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 7300, Box 8726\nAPO AP 95612", + "start_position": 63, + "end_position": 94 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "michelle kozma will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "michelle kozma", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city ESPOO: Uber, Importio and Futureadvisor. \"Don't feed me planned obsolescence,\" says Nathan Solomina in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nathan Solomina", + "start_position": 216, + "end_position": 231 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Futureadvisor", + "start_position": 158, + "end_position": 171 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Importio", + "start_position": 145, + "end_position": 153 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Uber", + "start_position": 139, + "end_position": 143 + }, + { + "entity_type": "LOCATION", + "entity_value": "ESPOO", + "start_position": 132, + "end_position": 137 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Unlike the Crawford novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Crawford", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "Meet me at Sahantie 72 Simonds Street\n Suite 466\n HUITTINEN\n Seychelles 25366", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Sahantie 72 Simonds Street\n Suite 466\n HUITTINEN\n Seychelles 25366", + "start_position": 11, + "end_position": 77 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "card number 4929129761689154 is lost, can you please send a new one to Unit 3191 Box 3770\nDPO AP 27173? I am in Melliste for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Melliste", + "start_position": 112, + "end_position": 120 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Unit 3191 Box 3770\nDPO AP 27173", + "start_position": 71, + "end_position": 102 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929129761689154", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 36 Netelaan 399 Apt. 708 Kooigem Mozambique", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "36 Netelaan 399 Apt. 708 Kooigem Mozambique", + "start_position": 63, + "end_position": 106 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "My name is Benedykta", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Benedykta", + "start_position": 11, + "end_position": 20 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Dr. Christopher Musliyevich?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christopher Musliyevich", + "start_position": 88, + "end_position": 111 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "Please return to Neville and Democracia 4183 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Neville and Democracia 4183", + "start_position": 17, + "end_position": 44 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 207.155.150.156 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "207.155.150.156", + "start_position": 50, + "end_position": 65 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 3/13/1956", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "3/13/1956", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Iwase is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Iwase", + "start_position": 23, + "end_position": 28 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "A tribute to Kenneth Pušaver ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kenneth Pušaver", + "start_position": 13, + "end_position": 28 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "unlike the dávila novel, it's not about necrophilia. what it is about, i suppose is anyone's guess. a brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "dávila", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "I want to add Lisa Lettiere as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lisa Lettiere", + "start_position": 14, + "end_position": 27 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Kacper spent a year at College Board as the assistant to Stephanie Trevisani, and the following year at Brown-Weaver in Sobeslav, which later became Garmin in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Garmin", + "start_position": 149, + "end_position": 155 + }, + { + "entity_type": "LOCATION", + "entity_value": "Sobeslav", + "start_position": 120, + "end_position": 128 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Brown-Weaver", + "start_position": 104, + "end_position": 116 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Trevisani", + "start_position": 57, + "end_position": 76 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "College Board", + "start_position": 23, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Kacper", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "We'll meet Monday at Equifax, 77 Obere Bahnhofstrasse 9, Bassersdorf", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bassersdorf", + "start_position": 57, + "end_position": 68 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Obere Bahnhofstrasse 9", + "start_position": 33, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "77", + "start_position": 30, + "end_position": 32 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Equifax", + "start_position": 21, + "end_position": 28 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Monday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "my name is marie", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "marie", + "start_position": 11, + "end_position": 16 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "Petr, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Petr", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 9320 7126", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "9320 7126", + "start_position": 35, + "end_position": 44 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "could i change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5480079924241245", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5480079924241245", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "Jessica, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jessica", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Egypt. Producer Daniel Metcalfe explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Daniel Metcalfe", + "start_position": 50, + "end_position": 65 + }, + { + "entity_type": "LOCATION", + "entity_value": "Egypt", + "start_position": 34, + "end_position": 39 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "please update the billing address with 24 ul. miła 131\ncodogne\n, tv\n afghanistan 25368 for this card: 4556241386518419", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556241386518419", + "start_position": 102, + "end_position": 118 + }, + { + "entity_type": "ADDRESS", + "entity_value": "24 ul. miła 131\ncodogne\n, tv\n afghanistan 25368", + "start_position": 39, + "end_position": 86 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 28 4376 Port Washington Road\n Suite 687\n Iron Springs\n New Zealand", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "28 4376 Port Washington Road\n Suite 687\n Iron Springs\n New Zealand", + "start_position": 47, + "end_position": 113 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5491572286450666 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5491572286450666", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 5506737326200784 on my e-mail YuriDegtyarev@cuvox.de?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "YuriDegtyarev@cuvox.de", + "start_position": 85, + "end_position": 107 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5506737326200784", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "My zip code is 98547", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "98547", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "My IBAN is GB91TRST34512687159555", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB91TRST34512687159555", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Terry Cardoso PhD\n\n65 Bodbysund 61\n Suite 521\n SKELLEFTEÅ\n Eritrea 92707\n0910-5877671-Office\\,(311)905-4466x8827-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(311)905-4466x8827", + "start_position": 94, + "end_position": 112 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0910-5877671", + "start_position": 73, + "end_position": 85 + }, + { + "entity_type": "ADDRESS", + "entity_value": "92707", + "start_position": 67, + "end_position": 72 + }, + { + "entity_type": "LOCATION", + "entity_value": "Eritrea", + "start_position": 59, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "SKELLEFTEÅ", + "start_position": 47, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 521", + "start_position": 36, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Bodbysund 61", + "start_position": 22, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "65", + "start_position": 19, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Terry Cardoso PhD", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "My friend lives in Cite Erriadh", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cite Erriadh", + "start_position": 19, + "end_position": 31 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "My IBAN is GB22SPSQ94714895057550", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB22SPSQ94714895057550", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Daniel Lindholm\n\n53 Σκαφίδια 148\n Apt. 795\n ΠΑΡΕΚΚΛΗΣΙΑ\n Uganda 62851", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "62851", + "start_position": 64, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "Uganda", + "start_position": 57, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΠΑΡΕΚΚΛΗΣΙΑ", + "start_position": 44, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 795", + "start_position": 34, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Σκαφίδια 148", + "start_position": 20, + "end_position": 32 + }, + { + "entity_type": "ADDRESS", + "entity_value": "53", + "start_position": 17, + "end_position": 19 + }, + { + "entity_type": "PERSON", + "entity_value": "Daniel Lindholm", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "My driver's license number is 755600751", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "755600751", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "You can tell Ramon was a huge Alexis Wirth fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Alexis Wirth", + "start_position": 30, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Ramon", + "start_position": 13, + "end_position": 18 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "have you been to a gregory barros concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "gregory barros", + "start_position": 19, + "end_position": 33 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "Maybe it's under Scott Schmidt", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Scott Schmidt", + "start_position": 17, + "end_position": 30 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "My driver's license number is A125325867", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "A125325867", + "start_position": 30, + "end_position": 40 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "They had 6: Lom-Ali, Timothy, Kathleen, Charles, Patrick and Jonathan.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jonathan", + "start_position": 61, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Patrick", + "start_position": 49, + "end_position": 56 + }, + { + "entity_type": "PERSON", + "entity_value": "Charles", + "start_position": 40, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Kathleen", + "start_position": 30, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Timothy", + "start_position": 21, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Lom-Ali", + "start_position": 12, + "end_position": 19 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Bechka: Healthmap, Solarlist and Morningstar Inc.. \"Don't feed me planned obsolescence,\" says Christine Sørensen in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christine Sørensen", + "start_position": 226, + "end_position": 244 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Morningstar Inc.", + "start_position": 165, + "end_position": 181 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Solarlist", + "start_position": 151, + "end_position": 160 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Healthmap", + "start_position": 140, + "end_position": 149 + }, + { + "entity_type": "LOCATION", + "entity_value": "Bechka", + "start_position": 132, + "end_position": 138 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "The address of SAP is 11 1709 Bo Meul St\n Suite 426\n Fish Hoek\n South Africa", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "11 1709 Bo Meul St\n Suite 426\n Fish Hoek\n South Africa", + "start_position": 22, + "end_position": 76 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "SAP", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "She named him Jake", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jake", + "start_position": 14, + "end_position": 18 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "James Azevedo\n\n71 Λεωφ. Ηρώων Πολυτεχνείου 19\n Apt. 129\n ΜΟΝΗ ΑΓΙΟΥ ΜΗΝΑ\n\n Ethiopia 93613", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "93613", + "start_position": 84, + "end_position": 89 + }, + { + "entity_type": "LOCATION", + "entity_value": "Ethiopia", + "start_position": 75, + "end_position": 83 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΜΟΝΗ ΑΓΙΟΥ ΜΗΝΑ", + "start_position": 57, + "end_position": 72 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 129", + "start_position": 47, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Λεωφ. Ηρώων Πολυτεχνείου 19", + "start_position": 18, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "71", + "start_position": 15, + "end_position": 17 + }, + { + "entity_type": "PERSON", + "entity_value": "James Azevedo", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "My name is Estrid", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Estrid", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "card number 4716818375246057 is lost, can you please send a new one to 53 Pierre Delannoyplaats 211\nDohma\n, SN\n Iceland 20936? I am in Leiria for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Leiria", + "start_position": 135, + "end_position": 141 + }, + { + "entity_type": "ADDRESS", + "entity_value": "53 Pierre Delannoyplaats 211\nDohma\n, SN\n Iceland 20936", + "start_position": 71, + "end_position": 125 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716818375246057", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "joshua gavrilov\n\n49 reykjarhóli 70\n suite 770\n fljót\n nauru 25389", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "25389", + "start_position": 60, + "end_position": 65 + }, + { + "entity_type": "LOCATION", + "entity_value": "nauru", + "start_position": 54, + "end_position": 59 + }, + { + "entity_type": "LOCATION", + "entity_value": "fljót", + "start_position": 47, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "suite 770", + "start_position": 36, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "reykjarhóli 70", + "start_position": 20, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "49", + "start_position": 17, + "end_position": 19 + }, + { + "entity_type": "PERSON", + "entity_value": "joshua gavrilov", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "My friend lives in FOSNAVÅG", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "FOSNAVÅG", + "start_position": 19, + "end_position": 27 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "Here's my SSN: 353-27-2519", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "353-27-2519", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: 10 Kromwater 38 Suite 865 Zoetermeer Norway, and 19 Brisas 8080\nNORSBORG, nan 33816", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "19 Brisas 8080\nNORSBORG, nan 33816", + "start_position": 92, + "end_position": 126 + }, + { + "entity_type": "ADDRESS", + "entity_value": "10 Kromwater 38 Suite 865 Zoetermeer Norway", + "start_position": 43, + "end_position": 86 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "in united arab emirates they have company songs, musical expressions of employee loyalty sung by salarymen. unfortunately, as regular rr commenter kelly müller points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "kelly müller", + "start_position": 147, + "end_position": 159 + }, + { + "entity_type": "LOCATION", + "entity_value": "united arab emirates", + "start_position": 3, + "end_position": 23 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "My name is Tempeste", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tempeste", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Cookstown this morning from Peru.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Peru", + "start_position": 58, + "end_position": 62 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cookstown", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "how do i open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "The title refers to 1599 Old Spallumcheen Rd street in Port Edward. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Rushisvili Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Rushisvili Street", + "start_position": 214, + "end_position": 231 + }, + { + "entity_type": "LOCATION", + "entity_value": "Port Edward", + "start_position": 55, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "1599 Old Spallumcheen Rd", + "start_position": 20, + "end_position": 44 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "It's like that since 6/18/1943", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "6/18/1943", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "Blake had given Sarah his address: 32 81 Long Street, MILFORD", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "MILFORD", + "start_position": 54, + "end_position": 61 + }, + { + "entity_type": "ADDRESS", + "entity_value": "81 Long Street", + "start_position": 38, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "32", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Sarah", + "start_position": 16, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Blake", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "Please return to Iwan and Aqqusinersuaq 171 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Iwan and Aqqusinersuaq 171", + "start_position": 17, + "end_position": 43 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "My friend lives in San Giuseppe Vesuviano", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "San Giuseppe Vesuviano", + "start_position": 19, + "end_position": 41 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "i want to increase limit on my card # 5348077321678060 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5348077321678060", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "Paul had given Cleopatra his address: 64 Schaarsteinweg 97, Hunderdorf", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Hunderdorf", + "start_position": 60, + "end_position": 70 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Schaarsteinweg 97", + "start_position": 41, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "64", + "start_position": 38, + "end_position": 40 + }, + { + "entity_type": "PERSON", + "entity_value": "Cleopatra", + "start_position": 15, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Paul", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4532982934822782 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532982934822782", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Otila is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Otila", + "start_position": 23, + "end_position": 28 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "Hi Khasanbek, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB83PHWR53091266005341", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB83PHWR53091266005341", + "start_position": 101, + "end_position": 123 + }, + { + "entity_type": "PERSON", + "entity_value": "Khasanbek", + "start_position": 3, + "end_position": 12 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "\\\"I\\'m glad to hear that United Arab Emirates is moving in that direction,\\\" says Becker.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Becker", + "start_position": 82, + "end_position": 88 + }, + { + "entity_type": "LOCATION", + "entity_value": "United Arab Emirates", + "start_position": 25, + "end_position": 45 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "Maybe it's under Kevin Cockburn", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kevin Cockburn", + "start_position": 17, + "end_position": 31 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "They're not answering at 0660 565 36 45", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0660 565 36 45", + "start_position": 25, + "end_position": 39 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "The title refers to Paul-Nevermann-Platz 47 street in Elfershausen. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Vizirov Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Vizirov Street", + "start_position": 214, + "end_position": 228 + }, + { + "entity_type": "LOCATION", + "entity_value": "Elfershausen", + "start_position": 54, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Paul-Nevermann-Platz 47", + "start_position": 20, + "end_position": 43 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "??? Jessica Zielinska\n??? Google Public Data Explorer\n??? 04 Pascual Yunquera 12\n??? Apt. 899\n??? Albuñuelas\n??? Gabon 21180", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "21180", + "start_position": 119, + "end_position": 124 + }, + { + "entity_type": "LOCATION", + "entity_value": "Gabon", + "start_position": 113, + "end_position": 118 + }, + { + "entity_type": "LOCATION", + "entity_value": "Albuñuelas", + "start_position": 98, + "end_position": 108 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 899", + "start_position": 85, + "end_position": 93 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Pascual Yunquera 12", + "start_position": 61, + "end_position": 80 + }, + { + "entity_type": "ADDRESS", + "entity_value": "04", + "start_position": 58, + "end_position": 60 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Google Public Data Explorer", + "start_position": 26, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Jessica Zielinska", + "start_position": 4, + "end_position": 21 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "My website is https://www.LandscapingLessons.at/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://www.LandscapingLessons.at/", + "start_position": 14, + "end_position": 48 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "I'm in Reykjavík, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Reykjavík", + "start_position": 7, + "end_position": 16 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to Unit 4714 Box 6368\nDPO AE 29271. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 4714 Box 6368\nDPO AE 29271", + "start_position": 27, + "end_position": 58 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "C'mon, sing it with me: \"You picked a fine time to leave me Arnaude, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Arnaude", + "start_position": 60, + "end_position": 67 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": "card number 5252445118010934 is lost, can you please send a new one to 48 Floridusgasse 89 Suite 690 WIEN Brazil? I am in SAINT-DIÉ for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "SAINT-DIÉ", + "start_position": 122, + "end_position": 131 + }, + { + "entity_type": "ADDRESS", + "entity_value": "48 Floridusgasse 89 Suite 690 WIEN Brazil", + "start_position": 71, + "end_position": 112 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5252445118010934", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "Sometimes people call me Ivana", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ivana", + "start_position": 25, + "end_position": 30 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in AAPAJÄRVI, Crowdanalytix is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Crowdanalytix", + "start_position": 40, + "end_position": 53 + }, + { + "entity_type": "LOCATION", + "entity_value": "AAPAJÄRVI", + "start_position": 29, + "end_position": 38 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "Opengov\n\n21 Hugo de Grootlaan 177 Suite 919 Lochem Gelderland", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "21 Hugo de Grootlaan 177 Suite 919 Lochem Gelderland", + "start_position": 9, + "end_position": 61 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Opengov", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4916662768101075", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916662768101075", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Joseph Romano", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joseph Romano", + "start_position": 43, + "end_position": 56 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Mali, but Bakar just has to get laid. Don't go to town, Anthony!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Anthony", + "start_position": 140, + "end_position": 147 + }, + { + "entity_type": "PERSON", + "entity_value": "Bakar", + "start_position": 94, + "end_position": 99 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mali", + "start_position": 84, + "end_position": 88 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "What's your credit card? 5375266479950555", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5375266479950555", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "Mrs. Michele Johansen Apt. 870 59 Bouciña 65\nAltafulla T 51890", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "51890", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "T", + "start_position": 55, + "end_position": 56 + }, + { + "entity_type": "LOCATION", + "entity_value": "Altafulla", + "start_position": 45, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Bouciña 65", + "start_position": 34, + "end_position": 44 + }, + { + "entity_type": "ADDRESS", + "entity_value": "59", + "start_position": 31, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 870", + "start_position": 22, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Michele Johansen", + "start_position": 5, + "end_position": 21 + }, + { + "entity_type": "PREFIX", + "entity_value": "Mrs.", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "The title refers to Postfach 71 street in Albligen. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Globelnik Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Globelnik Street", + "start_position": 198, + "end_position": 214 + }, + { + "entity_type": "LOCATION", + "entity_value": "Albligen", + "start_position": 42, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Postfach 71", + "start_position": 20, + "end_position": 31 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "William is from Cantrell Ltd.", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Cantrell Ltd.", + "start_position": 16, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "William", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "When: 2005-10-08 22:58:39\nWhere: Cite Bain Maure Ben Azouz Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cite Bain Maure Ben Azouz", + "start_position": 33, + "end_position": 58 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2005-10-08 22:58:39", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "My card 4716429906293905 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716429906293905", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 2/16/1962", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "2/16/1962", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Kimberly Armstrong).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kimberly Armstrong", + "start_position": 58, + "end_position": 76 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Jonathan had given Nicolas his address: 92 95 Burton Avenue, Okoia", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Okoia", + "start_position": 61, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "95 Burton Avenue", + "start_position": 43, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "92", + "start_position": 40, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Nicolas", + "start_position": 19, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Jonathan", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "Date: 1984-06-15 09:13:24\nName: Crystal Grant\nPhone: 0688 777 97 84", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0688 777 97 84", + "start_position": 53, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Crystal Grant", + "start_position": 32, + "end_position": 45 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1984-06-15 09:13:24", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at SMITH'S GREEN this morning from Cameroon.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cameroon", + "start_position": 62, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "SMITH'S GREEN", + "start_position": 30, + "end_position": 43 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 06 Frørup Byvej 22 Apt. 548 København K SJ. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "06 Frørup Byvej 22 Apt. 548 København K SJ", + "start_position": 27, + "end_position": 69 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "As promised, here's Tihomila's address:\n\nVästra Husby Häggetorp 26 Veitonen Street\n Apt. 152\n SLUSSFORS\n Czech Republic 22764", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Västra Husby Häggetorp 26 Veitonen Street\n Apt. 152\n SLUSSFORS\n Czech Republic 22764", + "start_position": 41, + "end_position": 125 + }, + { + "entity_type": "PERSON", + "entity_value": "Tihomila", + "start_position": 20, + "end_position": 28 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Mr. Carr is a 50 year old man who grew up in ΛΑΡΝΑΚΑ.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ΛΑΡΝΑΚΑ", + "start_position": 45, + "end_position": 52 + }, + { + "entity_type": "PERSON", + "entity_value": "Carr", + "start_position": 4, + "end_position": 8 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "I'm originally from France", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "France", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Sometimes people call me Laura", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Laura", + "start_position": 25, + "end_position": 30 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "My name is Þórólfur", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Þórólfur", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "Maybe it's under Shelly Mitchell", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Shelly Mitchell", + "start_position": 17, + "end_position": 32 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "Just posted a photo https://SecurityAd.es/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://SecurityAd.es/", + "start_position": 20, + "end_position": 42 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to Lozerlaan 172 Sangi Street\n Suite 536\n Den Haag\n Madagascar 27613", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Lozerlaan 172 Sangi Street\n Suite 536\n Den Haag\n Madagascar 27613", + "start_position": 26, + "end_position": 91 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Please return to 43 31 Eurack Court\nSchipluiden, ZH 27717 in case of an issue.", + "masked": "Please return to {{address}} in case of an issue.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "43 31 Eurack Court\nSchipluiden, ZH 27717", + "start_position": 17, + "end_position": 57 + } + ], + "template_id": 146, + "metadata": null + }, + { + "full_text": "Sometimes people call me Frederikke", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Frederikke", + "start_position": 25, + "end_position": 35 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "I'm in Korbous, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Korbous", + "start_position": 7, + "end_position": 14 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "During the 1990s, Deloitte invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Deloitte", + "start_position": 18, + "end_position": 26 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 4916906012796309", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916906012796309", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "samantha is a very sympathetic person. they are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "samantha", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "I'm originally from Grenada", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Grenada", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "We moved here from Paterna del Madera", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Paterna del Madera", + "start_position": 19, + "end_position": 37 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "Cameroon was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cameroon", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "when: 2013-03-14 12:53:39\nwhere: palhais country club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "palhais", + "start_position": 33, + "end_position": 40 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2013-03-14 12:53:39", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "Reginald Gorski\n\n32 2914 184th Street\n Apt. 333\n Edmonton\n\n Saint Lucia 07570", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "07570", + "start_position": 72, + "end_position": 77 + }, + { + "entity_type": "LOCATION", + "entity_value": "Saint Lucia", + "start_position": 60, + "end_position": 71 + }, + { + "entity_type": "LOCATION", + "entity_value": "Edmonton", + "start_position": 49, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 333", + "start_position": 39, + "end_position": 47 + }, + { + "entity_type": "ADDRESS", + "entity_value": "2914 184th Street", + "start_position": 20, + "end_position": 37 + }, + { + "entity_type": "ADDRESS", + "entity_value": "32", + "start_position": 17, + "end_position": 19 + }, + { + "entity_type": "PERSON", + "entity_value": "Reginald Gorski", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Please update the billing address with 54 Soo 36\nKERAVA\n, UU\n 51771 for this card: 4716320638852680", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716320638852680", + "start_position": 83, + "end_position": 99 + }, + { + "entity_type": "ADDRESS", + "entity_value": "54 Soo 36\nKERAVA\n, UU\n 51771", + "start_position": 39, + "end_position": 67 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "What's your credit card? 4716868277490212", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716868277490212", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "Steven Sultygov listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by William Johnson ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "William Johnson", + "start_position": 171, + "end_position": 186 + }, + { + "entity_type": "PERSON", + "entity_value": "Steven Sultygov", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "Shannon Azevedo\nSystems administrator\nUniversal Design Partners\n91 Rua João Pessoa 1636\n Apt. 522\n Recife\n Tuvalu 92910", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "91 Rua João Pessoa 1636\n Apt. 522\n Recife\n Tuvalu 92910", + "start_position": 64, + "end_position": 119 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Universal Design Partners", + "start_position": 38, + "end_position": 63 + }, + { + "entity_type": "TITLE", + "entity_value": "Systems administrator", + "start_position": 16, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Shannon Azevedo", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5273406477504409 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5273406477504409", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "Jennifer Gyarmaty\nGraham, Ochoa and Vasquez\nGrolmanstraße 25 Lindman Street\n Suite 718\n Bremen Ohlenhof\n Ecuador 25602\n9761 9808 office\n438.812.1525 fax\n891-338-6737 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "891-338-6737", + "start_position": 153, + "end_position": 165 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "438.812.1525", + "start_position": 136, + "end_position": 148 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "9761 9808", + "start_position": 119, + "end_position": 128 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Grolmanstraße 25 Lindman Street\n Suite 718\n Bremen Ohlenhof\n Ecuador 25602", + "start_position": 44, + "end_position": 118 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Graham, Ochoa and Vasquez", + "start_position": 18, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Jennifer Gyarmaty", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Rebecca Grishin).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rebecca Grishin", + "start_position": 58, + "end_position": 73 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "Date: 1996-07-29 14:58:18\nName: Julie Eriksson\nPhone: 782 2652", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "782 2652", + "start_position": 54, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Julie Eriksson", + "start_position": 32, + "end_position": 46 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1996-07-29 14:58:18", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "A tribute to Erik Pirogova ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Erik Pirogova", + "start_position": 13, + "end_position": 26 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Ždár nad Sázavou 1 this morning from Moldova.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Moldova", + "start_position": 67, + "end_position": 74 + }, + { + "entity_type": "LOCATION", + "entity_value": "Ždár nad Sázavou 1", + "start_position": 30, + "end_position": 48 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "We moved here from Station Nord", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Station Nord", + "start_position": 19, + "end_position": 31 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "They had 6: Daisy, Christina, Johnathan, Sarah, Alexander and Deborah.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Deborah", + "start_position": 62, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Alexander", + "start_position": 48, + "end_position": 57 + }, + { + "entity_type": "PERSON", + "entity_value": "Sarah", + "start_position": 41, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Johnathan", + "start_position": 30, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "Christina", + "start_position": 19, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Daisy", + "start_position": 12, + "end_position": 17 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Why is Iwao so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Iwao", + "start_position": 7, + "end_position": 11 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "my name is mieszko", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "mieszko", + "start_position": 11, + "end_position": 18 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "The letter arrived at 76 Nurme 2 Suite 485, GRIMSTAD, Fiji 34730 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "76 Nurme 2 Suite 485, GRIMSTAD, Fiji 34730", + "start_position": 22, + "end_position": 64 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Laurie Vaux", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Laurie Vaux", + "start_position": 58, + "end_position": 69 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "hello, this is dr. christopher lundgren. who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "christopher lundgren", + "start_position": 19, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "dr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "The letter arrived at 14 Postbox 108 Apt. 728 Kangilinnguit Swaziland last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "14 Postbox 108 Apt. 728 Kangilinnguit Swaziland", + "start_position": 22, + "end_position": 69 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "Nathan had given Pauline his address: 39 Rue du Centre 108, Masnuy-Saint-Pierre", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Masnuy-Saint-Pierre", + "start_position": 60, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Rue du Centre 108", + "start_position": 41, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "39", + "start_position": 38, + "end_position": 40 + }, + { + "entity_type": "PERSON", + "entity_value": "Pauline", + "start_position": 17, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Nathan", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "Just posted a photo https://www.GameDayAccessories.fi/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://www.GameDayAccessories.fi/", + "start_position": 20, + "end_position": 54 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "Mark is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mark", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "They're not answering at (37) 788-063", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(37) 788-063", + "start_position": 25, + "end_position": 37 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Travis Konovalov", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Travis Konovalov", + "start_position": 58, + "end_position": 74 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Rhonda Ruud", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rhonda Ruud", + "start_position": 58, + "end_position": 69 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "My credit card 5186239877019991 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5186239877019991", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "You said your email is HeddaPettersson@fleckens.hu. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "HeddaPettersson@fleckens.hu", + "start_position": 23, + "end_position": 50 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "I want to add Tiffany Bašić as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tiffany Bašić", + "start_position": 14, + "end_position": 27 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 5317873002652771", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5317873002652771", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Tómas to Colleen", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Colleen", + "start_position": 30, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Tómas", + "start_position": 21, + "end_position": 26 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add Curtis Afanasyev as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Curtis Afanasyev", + "start_position": 46, + "end_position": 62 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "C'mon, sing it with me: \"You picked a fine time to leave me Krisztián, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Krisztián", + "start_position": 60, + "end_position": 69 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "How do I change my address to USCGC Wiśniewski\nFPO AA 57077 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USCGC Wiśniewski\nFPO AA 57077", + "start_position": 30, + "end_position": 59 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "The title refers to Gumpendorfer Strasse 44 street in KAUFMANNBERG. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Antall Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Antall Street", + "start_position": 214, + "end_position": 227 + }, + { + "entity_type": "LOCATION", + "entity_value": "KAUFMANNBERG", + "start_position": 54, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Gumpendorfer Strasse 44", + "start_position": 20, + "end_position": 43 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "what's your credit card? 5257015834586726", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5257015834586726", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "Hello, this is Mr. Eric Costa. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Eric Costa", + "start_position": 19, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "Jouko spent a year at Inrix Traffic as the assistant to Jay Lagueux, and the following year at Poncho App in Þórshöfn, which later became Areavibes Inc in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Areavibes Inc", + "start_position": 138, + "end_position": 151 + }, + { + "entity_type": "LOCATION", + "entity_value": "Þórshöfn", + "start_position": 109, + "end_position": 117 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Poncho App", + "start_position": 95, + "end_position": 105 + }, + { + "entity_type": "PERSON", + "entity_value": "Jay Lagueux", + "start_position": 56, + "end_position": 67 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Inrix Traffic", + "start_position": 22, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Jouko", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Heidi to Stacy", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Stacy", + "start_position": 30, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Heidi", + "start_position": 21, + "end_position": 26 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "Mr. Grimes is a 50 year old man who grew up in Hrušovany u Brna.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Hrušovany u Brna", + "start_position": 47, + "end_position": 63 + }, + { + "entity_type": "PERSON", + "entity_value": "Grimes", + "start_position": 4, + "end_position": 10 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Jose Sauvé's Cautionary Tales. Is there a better example of unbridled creativity than early Ćaćić?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ćaćić", + "start_position": 216, + "end_position": 221 + }, + { + "entity_type": "PERSON", + "entity_value": "Jose Sauvé", + "start_position": 124, + "end_position": 134 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "67 rue de genville 178\n suite 790\n perk\n azerbaijan 33130", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "33130", + "start_position": 52, + "end_position": 57 + }, + { + "entity_type": "LOCATION", + "entity_value": "azerbaijan", + "start_position": 41, + "end_position": 51 + }, + { + "entity_type": "LOCATION", + "entity_value": "perk", + "start_position": 35, + "end_position": 39 + }, + { + "entity_type": "ADDRESS", + "entity_value": "suite 790", + "start_position": 24, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "rue de genville 178", + "start_position": 3, + "end_position": 22 + }, + { + "entity_type": "ADDRESS", + "entity_value": "67", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Rachel Pokorný will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rachel Pokorný", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "My name is Narciso", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Narciso", + "start_position": 11, + "end_position": 18 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "Destiny Nováková\n\n95 Joaquin Suarez 2906\n Apt. 884\n Santa Catalina\n\n Solomon Islands 46894", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "46894", + "start_position": 85, + "end_position": 90 + }, + { + "entity_type": "LOCATION", + "entity_value": "Solomon Islands", + "start_position": 69, + "end_position": 84 + }, + { + "entity_type": "LOCATION", + "entity_value": "Santa Catalina", + "start_position": 52, + "end_position": 66 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 884", + "start_position": 42, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Joaquin Suarez 2906", + "start_position": 21, + "end_position": 40 + }, + { + "entity_type": "ADDRESS", + "entity_value": "95", + "start_position": 18, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Destiny Nováková", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Elizabeth Floyd will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Elizabeth Floyd", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on Corellistraat 178 St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Corellistraat 178", + "start_position": 26, + "end_position": 43 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "South Korea was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "South Korea", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call (022) 0793-176", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(022) 0793-176", + "start_position": 35, + "end_position": 49 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "59 Heiligengeistbrücke 77\n Suite 594\n Wassertrüdingen\n Argentina 96165", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "96165", + "start_position": 65, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "Argentina", + "start_position": 55, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "Wassertrüdingen", + "start_position": 38, + "end_position": 53 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 594", + "start_position": 27, + "end_position": 36 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Heiligengeistbrücke 77", + "start_position": 3, + "end_position": 25 + }, + { + "entity_type": "ADDRESS", + "entity_value": "59", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "We moved here from Charlevoix", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Charlevoix", + "start_position": 19, + "end_position": 29 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4929169595730279 on my e-mail AndreaOlafsdottir@teleworm.us?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "AndreaOlafsdottir@teleworm.us", + "start_position": 85, + "end_position": 114 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929169595730279", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "My zip code is 15341", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "15341", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "capitalized words like wisdom and discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "62 217 Lovers Lane\n Suite 076\n Port Whangarei\n Nicaragua 11363", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "11363", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "LOCATION", + "entity_value": "Nicaragua", + "start_position": 47, + "end_position": 56 + }, + { + "entity_type": "LOCATION", + "entity_value": "Port Whangarei", + "start_position": 31, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 076", + "start_position": 20, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "217 Lovers Lane", + "start_position": 3, + "end_position": 18 + }, + { + "entity_type": "ADDRESS", + "entity_value": "62", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Trevor McDonald?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Trevor McDonald", + "start_position": 88, + "end_position": 103 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "We'll meet Sunday at Here, 18 Via Pasquale Scura 127, Gorgoglione", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Gorgoglione", + "start_position": 54, + "end_position": 65 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via Pasquale Scura 127", + "start_position": 30, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "18", + "start_position": 27, + "end_position": 29 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Here", + "start_position": 21, + "end_position": 25 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Sunday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 7/25/1983", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "7/25/1983", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "belize was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "belize", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "The Innography office is at PSC 4665, Box 2778\nAPO AE 80338", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 4665, Box 2778\nAPO AE 80338", + "start_position": 28, + "end_position": 59 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Innography", + "start_position": 4, + "end_position": 14 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "a tribute to jennifer sedušak ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "jennifer sedušak", + "start_position": 13, + "end_position": 29 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "Peru was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Peru", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "The Sas office is at 43 Τρικάλων 297\n Suite 462\n ΟΝΙΣΙΑ\n Poland", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "43 Τρικάλων 297\n Suite 462\n ΟΝΙΣΙΑ\n Poland", + "start_position": 21, + "end_position": 63 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Sas", + "start_position": 4, + "end_position": 7 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the India. Producer Rose Nekrasov explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rose Nekrasov", + "start_position": 50, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "India", + "start_position": 34, + "end_position": 39 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "Theodore Sedej\n\n09 99 Park Avenue\n Apt. 763\n LEA\n\n Kenya 01672", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "01672", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kenya", + "start_position": 51, + "end_position": 56 + }, + { + "entity_type": "LOCATION", + "entity_value": "LEA", + "start_position": 45, + "end_position": 48 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 763", + "start_position": 35, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "99 Park Avenue", + "start_position": 19, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "09", + "start_position": 16, + "end_position": 18 + }, + { + "entity_type": "PERSON", + "entity_value": "Theodore Sedej", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on Erzsébet tér 92. St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Erzsébet tér 92.", + "start_position": 26, + "end_position": 42 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "Date: 1993-10-20 12:40:13\nName: Jeremy Reyna\nPhone: 079 7602 9803", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "079 7602 9803", + "start_position": 52, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Jeremy Reyna", + "start_position": 32, + "end_position": 44 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1993-10-20 12:40:13", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "I'm originally from Ukraine", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Ukraine", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Have you been to a Kaylee Carlsson concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kaylee Carlsson", + "start_position": 19, + "end_position": 34 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "when: 1972-02-01 07:51:21\nwhere: morjärv country club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "morjärv", + "start_position": 33, + "end_position": 40 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1972-02-01 07:51:21", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4556077366492815 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556077366492815", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "you can tell hanan was a huge michael košelnik fan. written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "michael košelnik", + "start_position": 30, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "hanan", + "start_position": 13, + "end_position": 18 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "Switzerland was super fun to visit!", + "masked": "{{country}} was super fun to visit!", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Switzerland", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 24, + "metadata": null + }, + { + "full_text": "03 Avenida Otoniel Dutra 1277\n Suite 889\n Salvador\n Mali 60352", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "60352", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "LOCATION", + "entity_value": "Mali", + "start_position": 52, + "end_position": 56 + }, + { + "entity_type": "LOCATION", + "entity_value": "Salvador", + "start_position": 42, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 889", + "start_position": 31, + "end_position": 40 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Avenida Otoniel Dutra 1277", + "start_position": 3, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "03", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Please update the billing address with Fuglie 86 Azevedo Street\n Apt. 024\n TAVELSJÖ\n Israel 74749 for this card: 5167474255941416", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5167474255941416", + "start_position": 113, + "end_position": 129 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Fuglie 86 Azevedo Street\n Apt. 024\n TAVELSJÖ\n Israel 74749", + "start_position": 39, + "end_position": 97 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "They're not answering at 9747 6578", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "9747 6578", + "start_position": 25, + "end_position": 34 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "Just posted a photo http://VoipPolicy.ch/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://VoipPolicy.ch/", + "start_position": 20, + "end_position": 41 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "michael jurković md listed his top 20 songs for entertainment weekly and had the balls to list this song at #15. (what did he put at #1 you ask? answer:\"tube snake boogie\" by susan mikulić ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "susan mikulić", + "start_position": 175, + "end_position": 188 + }, + { + "entity_type": "PERSON", + "entity_value": "michael jurković md", + "start_position": 0, + "end_position": 19 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "Can I withdraw cash using my card 4539527935505473 at aTM center ?", + "masked": "Can I withdraw cash using my card {{credit_card_number}} at aTM center ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539527935505473", + "start_position": 34, + "end_position": 50 + } + ], + "template_id": 18, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "The letter arrived at 39 Herfststraat 167\n Apt. 853\n Almere\n Ghana last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "39 Herfststraat 167\n Apt. 853\n Almere\n Ghana", + "start_position": 22, + "end_position": 66 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5379628312222433", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5379628312222433", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Steven Parmentier?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Steven Parmentier", + "start_position": 88, + "end_position": 105 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "Who's coming to Andorra with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Andorra", + "start_position": 16, + "end_position": 23 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "could i change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "When: 1985-06-03 05:25:08\nWhere: Viamão Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Viamão", + "start_position": 33, + "end_position": 39 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1985-06-03 05:25:08", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "Keith Tesař will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Keith Tesař", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "Who's coming to Mongolia with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Mongolia", + "start_position": 16, + "end_position": 24 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "The title refers to Törneby 2 street in GUALÖV. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Rolc Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Rolc Street", + "start_position": 194, + "end_position": 205 + }, + { + "entity_type": "LOCATION", + "entity_value": "GUALÖV", + "start_position": 40, + "end_position": 46 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Törneby 2", + "start_position": 20, + "end_position": 29 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "She was born on 5/10/1963. Her maiden name is Nuncija", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nuncija", + "start_position": 46, + "end_position": 53 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "5/10/1963", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Lance Cantú lives at 71 Paraguay 87, Alcalalí", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Alcalalí", + "start_position": 37, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Paraguay 87", + "start_position": 24, + "end_position": 35 + }, + { + "entity_type": "ADDRESS", + "entity_value": "71", + "start_position": 21, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Lance Cantú", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "The letter arrived at 38 Tacuarembo 6626 Suite 595, Glen Arbor, Bolivia 52626 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "38 Tacuarembo 6626 Suite 595, Glen Arbor, Bolivia 52626", + "start_position": 22, + "end_position": 77 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Perugia: Merrill Lynch, Arrive Labs and Buildzoom. \"Don't feed me planned obsolescence,\" says Kelly Wollaston in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kelly Wollaston", + "start_position": 226, + "end_position": 241 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Buildzoom", + "start_position": 172, + "end_position": 181 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Arrive Labs", + "start_position": 156, + "end_position": 167 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Merrill Lynch", + "start_position": 141, + "end_position": 154 + }, + { + "entity_type": "LOCATION", + "entity_value": "Perugia", + "start_position": 132, + "end_position": 139 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "\"the big three\" of the big three killed my baby are the car manufacturers that dominate the economy of the white stripes' home city capão bonito: frost llc, hawkins, richardson and santana and citysourced. \"don't feed me planned obsolescence,\" says sarah lewis in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "sarah lewis", + "start_position": 249, + "end_position": 260 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "citysourced", + "start_position": 193, + "end_position": 204 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "hawkins, richardson and santana", + "start_position": 157, + "end_position": 188 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "frost llc", + "start_position": 146, + "end_position": 155 + }, + { + "entity_type": "LOCATION", + "entity_value": "capão bonito", + "start_position": 132, + "end_position": 144 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Date: 1992-12-08 19:28:54\nName: Nicholas Barth\nPhone: 040 379 2455", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "040 379 2455", + "start_position": 54, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Nicholas Barth", + "start_position": 32, + "end_position": 46 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1992-12-08 19:28:54", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "My zip code is 84271", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "84271", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "My name is Ferdinando", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ferdinando", + "start_position": 11, + "end_position": 21 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "Theresa Maruyama lives at 39 Maneeži 37, Ruhve", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Ruhve", + "start_position": 41, + "end_position": 46 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Maneeži 37", + "start_position": 29, + "end_position": 39 + }, + { + "entity_type": "ADDRESS", + "entity_value": "39", + "start_position": 26, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Theresa Maruyama", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Havndal: Rand Mcnally, Parsons Brinckerhoff and Social Explorer. \"Don't feed me planned obsolescence,\" says Amber Kaczmarek in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Amber Kaczmarek", + "start_position": 240, + "end_position": 255 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Social Explorer", + "start_position": 180, + "end_position": 195 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Parsons Brinckerhoff", + "start_position": 155, + "end_position": 175 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Rand Mcnally", + "start_position": 141, + "end_position": 153 + }, + { + "entity_type": "LOCATION", + "entity_value": "Havndal", + "start_position": 132, + "end_position": 139 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Shannon Blomqvist\nHuman resources representative\nGalyan's\nUSCGC Globelnik\nFPO AP 15834", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USCGC Globelnik\nFPO AP 15834", + "start_position": 58, + "end_position": 86 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Galyan's", + "start_position": 49, + "end_position": 57 + }, + { + "entity_type": "TITLE", + "entity_value": "Human resources representative", + "start_position": 18, + "end_position": 48 + }, + { + "entity_type": "PERSON", + "entity_value": "Shannon Blomqvist", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Narsaq: Vitals, Nielsen and Findthebestcom. \"Don't feed me planned obsolescence,\" says Mary Bilić in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mary Bilić", + "start_position": 219, + "end_position": 229 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Findthebestcom", + "start_position": 160, + "end_position": 174 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Nielsen", + "start_position": 148, + "end_position": 155 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Vitals", + "start_position": 140, + "end_position": 146 + }, + { + "entity_type": "LOCATION", + "entity_value": "Narsaq", + "start_position": 132, + "end_position": 138 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "My name is William Benoit but everyone calls me Tilly", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tilly", + "start_position": 48, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "William Benoit", + "start_position": 11, + "end_position": 25 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "You can tell Paulette was a huge Tina Eichelberger fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tina Eichelberger", + "start_position": 33, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "Paulette", + "start_position": 13, + "end_position": 21 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "The Robert Petersen version recorded for Datalogix became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Datalogix", + "start_position": 41, + "end_position": 50 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert Petersen", + "start_position": 4, + "end_position": 19 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "You said your email is MonikaChocholova@einrot.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "MonikaChocholova@einrot.com", + "start_position": 23, + "end_position": 50 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "Troy: \\\"Who are you?\\\"\nLindsey:\\\"I\\'m Jonathan\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jonathan", + "start_position": 38, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Lindsey", + "start_position": 23, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Troy", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "bot: what's the name on the account? user: catherine ryhänen", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "catherine ryhänen", + "start_position": 43, + "end_position": 60 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "They had 6: Daavid, Elizabeth, Nicholas, Sean, John and Dawn.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Dawn", + "start_position": 56, + "end_position": 60 + }, + { + "entity_type": "PERSON", + "entity_value": "John", + "start_position": 47, + "end_position": 51 + }, + { + "entity_type": "PERSON", + "entity_value": "Sean", + "start_position": 41, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Nicholas", + "start_position": 31, + "end_position": 39 + }, + { + "entity_type": "PERSON", + "entity_value": "Elizabeth", + "start_position": 20, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Daavid", + "start_position": 12, + "end_position": 18 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "You said your email is GabrielRochaDias@jourrapide.com. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "GabrielRochaDias@jourrapide.com", + "start_position": 23, + "end_position": 54 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "Follow up with Ryan Bagy MD in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ryan Bagy MD", + "start_position": 15, + "end_position": 27 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "During the 1990s, Smith'S invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Smith'S", + "start_position": 18, + "end_position": 25 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on Gesäusestrasse 6 St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Gesäusestrasse 6", + "start_position": 26, + "end_position": 42 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in VIERZON, Copyright Clearance Center is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Copyright Clearance Center", + "start_position": 38, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "VIERZON", + "start_position": 29, + "end_position": 36 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "My zip code is 40938", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "40938", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Hermansen and Lowery were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lowery", + "start_position": 63, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Hermansen", + "start_position": 49, + "end_position": 58 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "C'mon, sing it with me: \"You picked a fine time to leave me Kaoru, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kaoru", + "start_position": 60, + "end_position": 65 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": "the corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "The Jessica Nygård version recorded for Wolfram Research became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Wolfram Research", + "start_position": 40, + "end_position": 56 + }, + { + "entity_type": "PERSON", + "entity_value": "Jessica Nygård", + "start_position": 4, + "end_position": 18 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "I'm originally from Vanuatu", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Vanuatu", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Bangladesh, but Takahito just has to get laid. Don't go to town, Kelly!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kelly", + "start_position": 149, + "end_position": 154 + }, + { + "entity_type": "PERSON", + "entity_value": "Takahito", + "start_position": 100, + "end_position": 108 + }, + { + "entity_type": "LOCATION", + "entity_value": "Bangladesh", + "start_position": 84, + "end_position": 94 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "43 P.O. Box 108\n Apt. 282\n Qaanaaq\n Japan 63161", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "63161", + "start_position": 42, + "end_position": 47 + }, + { + "entity_type": "LOCATION", + "entity_value": "Japan", + "start_position": 36, + "end_position": 41 + }, + { + "entity_type": "LOCATION", + "entity_value": "Qaanaaq", + "start_position": 27, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 282", + "start_position": 17, + "end_position": 25 + }, + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 108", + "start_position": 3, + "end_position": 15 + }, + { + "entity_type": "ADDRESS", + "entity_value": "43", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "\\\"i\\'m glad to hear that belarus is moving in that direction,\\\" says jonsson.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "jonsson", + "start_position": 69, + "end_position": 76 + }, + { + "entity_type": "LOCATION", + "entity_value": "belarus", + "start_position": 25, + "end_position": 32 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "The Princess Royal arrived at Hermanovice this morning from Iceland.", + "masked": "The Princess Royal arrived at {{city}} this morning from {{country}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Iceland", + "start_position": 60, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "Hermanovice", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 178, + "metadata": null + }, + { + "full_text": "melissa pirogova will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "melissa pirogova", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "65 machelsesteenweg 197\n apt. 581\n montzen\n cape verde 30038", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "30038", + "start_position": 55, + "end_position": 60 + }, + { + "entity_type": "LOCATION", + "entity_value": "cape verde", + "start_position": 44, + "end_position": 54 + }, + { + "entity_type": "LOCATION", + "entity_value": "montzen", + "start_position": 35, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "apt. 581", + "start_position": 25, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "machelsesteenweg 197", + "start_position": 3, + "end_position": 23 + }, + { + "entity_type": "ADDRESS", + "entity_value": "65", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "i'd like it to be sent to 98 lahof 26 suite 300, las vegas, turkey 43686", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "98 lahof 26 suite 300, las vegas, turkey 43686", + "start_position": 26, + "end_position": 72 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Just posted a photo http://www.FunnyTan.co.nz/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://www.FunnyTan.co.nz/", + "start_position": 20, + "end_position": 46 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Jessica Castiglione", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jessica Castiglione", + "start_position": 43, + "end_position": 62 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Kingdom of the Netherlands, but Oscar just has to get laid. Don't go to town, Robert!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Robert", + "start_position": 162, + "end_position": 168 + }, + { + "entity_type": "PERSON", + "entity_value": "Oscar", + "start_position": 116, + "end_position": 121 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kingdom of the Netherlands", + "start_position": 84, + "end_position": 110 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "Szebasztián: \\\"Who are you?\\\"\nMary:\\\"I\\'m Russell\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Russell", + "start_position": 42, + "end_position": 49 + }, + { + "entity_type": "PERSON", + "entity_value": "Mary", + "start_position": 30, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Szebasztián", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "Kathleen Jukić\n\n10 P.O. Box 101\n Apt. 621\n Qeqertarsuaq\n Moldova 73916\n92 34 70-Office\\,001-321-194-8268x44208-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-321-194-8268x44208", + "start_position": 88, + "end_position": 110 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "92 34 70", + "start_position": 71, + "end_position": 79 + }, + { + "entity_type": "ADDRESS", + "entity_value": "73916", + "start_position": 65, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "Moldova", + "start_position": 57, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "Qeqertarsuaq", + "start_position": 43, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 621", + "start_position": 33, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 101", + "start_position": 19, + "end_position": 31 + }, + { + "entity_type": "ADDRESS", + "entity_value": "10", + "start_position": 16, + "end_position": 18 + }, + { + "entity_type": "PERSON", + "entity_value": "Kathleen Jukić", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "marilena: \\\"who are you?\\\"\nangela:\\\"i\\'m michael\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "michael", + "start_position": 41, + "end_position": 48 + }, + { + "entity_type": "PERSON", + "entity_value": "angela", + "start_position": 27, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "marilena", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "??? jennifer bermúdez\n??? davis ltd.\n??? 37 margrethes plads 17\n??? apt. 336\n??? løgstør\n??? republic of ireland 62280", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "62280", + "start_position": 113, + "end_position": 118 + }, + { + "entity_type": "LOCATION", + "entity_value": "republic of ireland", + "start_position": 93, + "end_position": 112 + }, + { + "entity_type": "LOCATION", + "entity_value": "løgstør", + "start_position": 81, + "end_position": 88 + }, + { + "entity_type": "ADDRESS", + "entity_value": "apt. 336", + "start_position": 68, + "end_position": 76 + }, + { + "entity_type": "ADDRESS", + "entity_value": "margrethes plads 17", + "start_position": 44, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "37", + "start_position": 41, + "end_position": 43 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "davis ltd.", + "start_position": 26, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "jennifer bermúdez", + "start_position": 4, + "end_position": 21 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by John Vojtěch and starring Hyvönen", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Hyvönen", + "start_position": 86, + "end_position": 93 + }, + { + "entity_type": "PERSON", + "entity_value": "John Vojtěch", + "start_position": 60, + "end_position": 72 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Upernavik: T Rowe Price, Collective Ip and Garmin. \"Don't feed me planned obsolescence,\" says Deanna Capon MD in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Deanna Capon MD", + "start_position": 226, + "end_position": 241 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Garmin", + "start_position": 175, + "end_position": 181 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Collective Ip", + "start_position": 157, + "end_position": 170 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "T Rowe Price", + "start_position": 143, + "end_position": 155 + }, + { + "entity_type": "LOCATION", + "entity_value": "Upernavik", + "start_position": 132, + "end_position": 141 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call (027) 0336-972", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(027) 0336-972", + "start_position": 35, + "end_position": 49 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "what's your email? hugoharikkala@jourrapide.com", + "masked": "What's your email? {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "hugoharikkala@jourrapide.com", + "start_position": 19, + "end_position": 47 + } + ], + "template_id": 66, + "metadata": null + }, + { + "full_text": "Clearhealthcosts\n\n66 Dalmatinova 112 Apt. 846, Drijette, Qatar 52904", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66 Dalmatinova 112 Apt. 846, Drijette, Qatar 52904", + "start_position": 18, + "end_position": 68 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Clearhealthcosts", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Michael Olofsson listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Michael Hodžaj ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Michael Hodžaj", + "start_position": 172, + "end_position": 186 + }, + { + "entity_type": "PERSON", + "entity_value": "Michael Olofsson", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Kent Mailly", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kent Mailly", + "start_position": 43, + "end_position": 54 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Togo, but Hans just has to get laid. Don't go to town, Joseph!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joseph", + "start_position": 139, + "end_position": 145 + }, + { + "entity_type": "PERSON", + "entity_value": "Hans", + "start_position": 94, + "end_position": 98 + }, + { + "entity_type": "LOCATION", + "entity_value": "Togo", + "start_position": 84, + "end_position": 88 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "They're not answering at 96 237271", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "96 237271", + "start_position": 25, + "end_position": 34 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Den Helder: Predilytics, Opportunityspace Inc. and U.N. \"Don't feed me planned obsolescence,\" says Amanda Bertelsen in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Amanda Bertelsen", + "start_position": 231, + "end_position": 247 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "U.N", + "start_position": 183, + "end_position": 186 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Opportunityspace Inc.", + "start_position": 157, + "end_position": 178 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Predilytics", + "start_position": 144, + "end_position": 155 + }, + { + "entity_type": "LOCATION", + "entity_value": "Den Helder", + "start_position": 132, + "end_position": 142 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 5102339993161718", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5102339993161718", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "My credit card 4929050988424425 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929050988424425", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "We moved here from Wrocław", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Wrocław", + "start_position": 19, + "end_position": 26 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "Dr. Fields is a 50 year old man who grew up in TRÄSLÖVSLÄGE.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "TRÄSLÖVSLÄGE", + "start_position": 47, + "end_position": 59 + }, + { + "entity_type": "PERSON", + "entity_value": "Fields", + "start_position": 4, + "end_position": 10 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "My name is Jessica van den Oord but everyone calls me Weronika", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Weronika", + "start_position": 54, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Jessica van den Oord", + "start_position": 11, + "end_position": 31 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "my website is http://mvpspecials.it/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://mvpspecials.it/", + "start_position": 14, + "end_position": 36 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "Please update the billing address with 30 Tawastintie 72\n Suite 521\n LAHTI\n Ukraine 34758 for this card: 5175556128276028", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5175556128276028", + "start_position": 105, + "end_position": 121 + }, + { + "entity_type": "ADDRESS", + "entity_value": "30 Tawastintie 72\n Suite 521\n LAHTI\n Ukraine 34758", + "start_position": 39, + "end_position": 89 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "mrs. dawn jessen suite 085 23 rúa do paseo 11\nsalteras se 84782", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "84782", + "start_position": 58, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "se", + "start_position": 55, + "end_position": 57 + }, + { + "entity_type": "LOCATION", + "entity_value": "salteras", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "rúa do paseo 11", + "start_position": 30, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "23", + "start_position": 27, + "end_position": 29 + }, + { + "entity_type": "ADDRESS", + "entity_value": "suite 085", + "start_position": 17, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "dawn jessen", + "start_position": 5, + "end_position": 16 + }, + { + "entity_type": "PREFIX", + "entity_value": "mrs.", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "She named him Nicholas", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nicholas", + "start_position": 14, + "end_position": 22 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "chloe is very reliable. you can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "chloe", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "my religion does not allow speaking to bots, they are evil and hacked by the devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "I'm in Maru, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Maru", + "start_position": 7, + "end_position": 11 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "The address of Transunion is 17 1467 Hastings Street\nCAHORS, MP 58681", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "17 1467 Hastings Street\nCAHORS, MP 58681", + "start_position": 29, + "end_position": 69 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Transunion", + "start_position": 15, + "end_position": 25 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "My card 4716397022648122 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716397022648122", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "Unlike the Beauchemin novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Beauchemin", + "start_position": 11, + "end_position": 21 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "Blažena spent a year at 5Psolutions as the assistant to Stephanie Kučera, and the following year at Biovia in Casbeno, which later became Mayo-Walters in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Mayo-Walters", + "start_position": 139, + "end_position": 151 + }, + { + "entity_type": "LOCATION", + "entity_value": "Casbeno", + "start_position": 111, + "end_position": 118 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Biovia", + "start_position": 101, + "end_position": 107 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Kučera", + "start_position": 56, + "end_position": 73 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "5Psolutions", + "start_position": 24, + "end_position": 35 + }, + { + "entity_type": "PERSON", + "entity_value": "Blažena", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "you can tell ferrau was a huge tammy pálffy fan. written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "tammy pálffy", + "start_position": 31, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "ferrau", + "start_position": 13, + "end_position": 19 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "Lasse shouted at Sara: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sara", + "start_position": 17, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Lasse", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "the letter arrived at 77 99 park avenue, red deer, romania last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "77 99 park avenue, red deer, romania", + "start_position": 22, + "end_position": 58 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "My IBAN is GB34IKQV13510963637102", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB34IKQV13510963637102", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Follow up with Ashley Akhtakhanov in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ashley Akhtakhanov", + "start_position": 15, + "end_position": 33 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "My zip code is 05520", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "05520", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "I'm originally from Malaysia", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Malaysia", + "start_position": 20, + "end_position": 28 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "Dr. Megan Sato Apt. 630 39 Rincon 9082\nCarlos Reyles DU 47621", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "47621", + "start_position": 56, + "end_position": 61 + }, + { + "entity_type": "ADDRESS", + "entity_value": "DU", + "start_position": 53, + "end_position": 55 + }, + { + "entity_type": "LOCATION", + "entity_value": "Carlos Reyles", + "start_position": 39, + "end_position": 52 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Rincon 9082", + "start_position": 27, + "end_position": 38 + }, + { + "entity_type": "ADDRESS", + "entity_value": "39", + "start_position": 24, + "end_position": 26 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 630", + "start_position": 15, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Megan Sato", + "start_position": 4, + "end_position": 14 + }, + { + "entity_type": "PREFIX", + "entity_value": "Dr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "A tribute to Tony Ingebrigtsen ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tony Ingebrigtsen", + "start_position": 13, + "end_position": 30 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "My card 4556426428481144 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556426428481144", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 11/5/1949", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "11/5/1949", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "She was born on 10/10/1975. Her maiden name is Majewska", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Majewska", + "start_position": 47, + "end_position": 55 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "10/10/1975", + "start_position": 16, + "end_position": 26 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Vinka shouted at Angelica: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Angelica", + "start_position": 17, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Vinka", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "My card 5387415607923499 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5387415607923499", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "She moved here from Spain", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Spain", + "start_position": 20, + "end_position": 25 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Yesenia shouted at Billy: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Billy", + "start_position": 19, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Yesenia", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "Natasha Barros\nScience technician\nH. J. Wilson & Company\nUnit 6204 Box 9180\nDPO AA 32754", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 6204 Box 9180\nDPO AA 32754", + "start_position": 57, + "end_position": 88 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "H. J. Wilson & Company", + "start_position": 34, + "end_position": 56 + }, + { + "entity_type": "TITLE", + "entity_value": "Science technician", + "start_position": 15, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Natasha Barros", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "Follow up with Katelyn Lauridsen in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Katelyn Lauridsen", + "start_position": 15, + "end_position": 32 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "Date: 2011-10-24 06:30:25\nName: Joseph Arnold\nPhone: 05334 75 83 35", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "05334 75 83 35", + "start_position": 53, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Joseph Arnold", + "start_position": 32, + "end_position": 45 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2011-10-24 06:30:25", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 36 82 rue Beauvau\nMontevideo\n, MO\n 46102", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "36 82 rue Beauvau\nMontevideo\n, MO\n 46102", + "start_position": 63, + "end_position": 103 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "Maria Lynge\n\n58 Via Moiariello 102\n Suite 623\n Calascibetta\n\n Oman 04757", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "04757", + "start_position": 67, + "end_position": 72 + }, + { + "entity_type": "LOCATION", + "entity_value": "Oman", + "start_position": 62, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "Calascibetta", + "start_position": 47, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 623", + "start_position": 36, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via Moiariello 102", + "start_position": 16, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "58", + "start_position": 13, + "end_position": 15 + }, + { + "entity_type": "PERSON", + "entity_value": "Maria Lynge", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Date: 1991-04-02 04:44:09\nName: Erica Sultygov\nPhone: 0431 19 97 94", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0431 19 97 94", + "start_position": 54, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Erica Sultygov", + "start_position": 32, + "end_position": 46 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1991-04-02 04:44:09", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "Why is Cirilka so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cirilka", + "start_position": 7, + "end_position": 14 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email GladysLLeblanc@rhyta.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "GladysLLeblanc@rhyta.com", + "start_position": 39, + "end_position": 63 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "Just posted a photo https://ShedSizes.ch/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://ShedSizes.ch/", + "start_position": 20, + "end_position": 41 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "Valtteri is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Valtteri", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "Lori Gere lives at 06 Slovenčeva 51, Črni Vrh nad Idrijo", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Črni Vrh nad Idrijo", + "start_position": 37, + "end_position": 56 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Slovenčeva 51", + "start_position": 22, + "end_position": 35 + }, + { + "entity_type": "ADDRESS", + "entity_value": "06", + "start_position": 19, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Lori Gere", + "start_position": 0, + "end_position": 9 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "??? Kathryn Kharlamova\n??? BioFlower\n??? 53 4624 St Jean Baptiste St\n??? Suite 826\n??? St Ulric\n??? Lebanon 13062", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "13062", + "start_position": 108, + "end_position": 113 + }, + { + "entity_type": "LOCATION", + "entity_value": "Lebanon", + "start_position": 100, + "end_position": 107 + }, + { + "entity_type": "LOCATION", + "entity_value": "St Ulric", + "start_position": 87, + "end_position": 95 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 826", + "start_position": 73, + "end_position": 82 + }, + { + "entity_type": "ADDRESS", + "entity_value": "4624 St Jean Baptiste St", + "start_position": 44, + "end_position": 68 + }, + { + "entity_type": "ADDRESS", + "entity_value": "53", + "start_position": 41, + "end_position": 43 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "BioFlower", + "start_position": 27, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Kathryn Kharlamova", + "start_position": 4, + "end_position": 22 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Freddie to Kevin", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kevin", + "start_position": 32, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Freddie", + "start_position": 21, + "end_position": 28 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "I have lost my card 5297929508959401. Could you please block my credit card ASAP ? My name is Melissa Lombardi.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Melissa Lombardi", + "start_position": 94, + "end_position": 110 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5297929508959401", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "The Eric Dřímal version recorded for Junar Inc became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Junar Inc", + "start_position": 37, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Eric Dřímal", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "She named him Cory", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cory", + "start_position": 14, + "end_position": 18 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "Toni Rangel lives at 34 Skolegyden 99, København K", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "København K", + "start_position": 39, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Skolegyden 99", + "start_position": 24, + "end_position": 37 + }, + { + "entity_type": "ADDRESS", + "entity_value": "34", + "start_position": 21, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Toni Rangel", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 33 93 31", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "33 93 31", + "start_position": 35, + "end_position": 43 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "When: 1990-12-30 04:51:40\nWhere: Petrusville Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Petrusville", + "start_position": 33, + "end_position": 44 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1990-12-30 04:51:40", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 74.34.59.240 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "74.34.59.240", + "start_position": 50, + "end_position": 62 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "\\\"I\\'m glad to hear that Japan is moving in that direction,\\\" says Lépicier.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lépicier", + "start_position": 67, + "end_position": 75 + }, + { + "entity_type": "LOCATION", + "entity_value": "Japan", + "start_position": 25, + "end_position": 30 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Fleischer and Mcintosh were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mcintosh", + "start_position": 63, + "end_position": 71 + }, + { + "entity_type": "PERSON", + "entity_value": "Fleischer", + "start_position": 49, + "end_position": 58 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "As promised, here's Emre's address:\n\n26 Veres Pálné u. 91.\nToftlund\n, SY\n 04828", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "26 Veres Pálné u. 91.\nToftlund\n, SY\n 04828", + "start_position": 37, + "end_position": 79 + }, + { + "entity_type": "PERSON", + "entity_value": "Emre", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Date: 2004-12-06 08:35:20\nName: James Kamman\nPhone: 02.27.96.63.08", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "02.27.96.63.08", + "start_position": 52, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "James Kamman", + "start_position": 32, + "end_position": 44 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2004-12-06 08:35:20", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "His social security number is 196-20-7761", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "196-20-7761", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "Dawn Njivar\n\n06 Ditscheinergasse 1\n Suite 386\n HUNDSHEIM\n\n Ecuador 37826", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "37826", + "start_position": 67, + "end_position": 72 + }, + { + "entity_type": "LOCATION", + "entity_value": "Ecuador", + "start_position": 59, + "end_position": 66 + }, + { + "entity_type": "LOCATION", + "entity_value": "HUNDSHEIM", + "start_position": 47, + "end_position": 56 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 386", + "start_position": 36, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Ditscheinergasse 1", + "start_position": 16, + "end_position": 34 + }, + { + "entity_type": "ADDRESS", + "entity_value": "06", + "start_position": 13, + "end_position": 15 + }, + { + "entity_type": "PERSON", + "entity_value": "Dawn Njivar", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "Melissa Walker will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Melissa Walker", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "The Sara Peres version recorded for Municode became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Municode", + "start_position": 36, + "end_position": 44 + }, + { + "entity_type": "PERSON", + "entity_value": "Sara Peres", + "start_position": 4, + "end_position": 14 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "Daniel Lombardi listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Katie Gallo ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Katie Gallo", + "start_position": 171, + "end_position": 182 + }, + { + "entity_type": "PERSON", + "entity_value": "Daniel Lombardi", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4929266263682574 on my e-mail AimeeMcGregor@superrito.com?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "AimeeMcGregor@superrito.com", + "start_position": 85, + "end_position": 112 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929266263682574", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "\\\"I\\'m glad to hear that Bhutan is moving in that direction,\\\" says Skjæveland.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Skjæveland", + "start_position": 68, + "end_position": 78 + }, + { + "entity_type": "LOCATION", + "entity_value": "Bhutan", + "start_position": 25, + "end_position": 31 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "the title refers to tekniikantie 8 street in punkaharju. it was on this street that many of the clubs where metallica first played were situated. \"battery is found in me\" shows that these early shows on panković street street were important to them. battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "panković street", + "start_position": 203, + "end_position": 218 + }, + { + "entity_type": "LOCATION", + "entity_value": "punkaharju", + "start_position": 45, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "tekniikantie 8", + "start_position": 20, + "end_position": 34 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add Craig Hoshino as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Craig Hoshino", + "start_position": 46, + "end_position": 59 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "card number 4716154971968724 is lost, can you please send a new one to 35 Hausergasse 59 Suite 106, Karlovy Vary 17, Japan 67785? I am in KATRINEHOLM for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "KATRINEHOLM", + "start_position": 138, + "end_position": 149 + }, + { + "entity_type": "ADDRESS", + "entity_value": "35 Hausergasse 59 Suite 106, Karlovy Vary 17, Japan 67785", + "start_position": 71, + "end_position": 128 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716154971968724", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "My friend lives in Cheb 2", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cheb 2", + "start_position": 19, + "end_position": 25 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "emily is a very sympathetic person. they are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "emily", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "Mathilde, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mathilde", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "The Atsite office is at 28 Slovenčeva 46 Apt. 715, Port Edward, Laos 64693", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "28 Slovenčeva 46 Apt. 715, Port Edward, Laos 64693", + "start_position": 24, + "end_position": 74 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Atsite", + "start_position": 4, + "end_position": 10 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Donald Fedorov will be talking in the conference", + "masked": "{{person}} will be talking in the conference", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Donald Fedorov", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 93, + "metadata": null + }, + { + "full_text": "During the 1990s, Lending Club invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Lending Club", + "start_position": 18, + "end_position": 30 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Leslie Armijo).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Leslie Armijo", + "start_position": 58, + "end_position": 71 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "the blackrock office is at unit 9585 box 2519\ndpo ap 36668", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "unit 9585 box 2519\ndpo ap 36668", + "start_position": 27, + "end_position": 58 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "blackrock", + "start_position": 4, + "end_position": 13 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 25 Rákóczi út 81. Suite 540 Balatonalmádi Algeria", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "25 Rákóczi út 81. Suite 540 Balatonalmádi Algeria", + "start_position": 47, + "end_position": 96 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Myanmar. Producer Amanda Sultygov MD explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Amanda Sultygov MD", + "start_position": 52, + "end_position": 70 + }, + { + "entity_type": "LOCATION", + "entity_value": "Myanmar", + "start_position": 34, + "end_position": 41 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "His social security number is 060-25-2440", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "060-25-2440", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Here's my SSN: 141-01-9056", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "141-01-9056", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "oles shouted at samantha: \"what are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "samantha", + "start_position": 16, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "oles", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "My website is https://www.LimitBuy.nl/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://www.LimitBuy.nl/", + "start_position": 14, + "end_position": 38 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Katherine Gyôry).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Katherine Gyôry", + "start_position": 58, + "end_position": 73 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "77 Postbox 115\n Suite 285\n Narsarsuaq\n East Timor 73162", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "73162", + "start_position": 50, + "end_position": 55 + }, + { + "entity_type": "LOCATION", + "entity_value": "East Timor", + "start_position": 39, + "end_position": 49 + }, + { + "entity_type": "LOCATION", + "entity_value": "Narsarsuaq", + "start_position": 27, + "end_position": 37 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 285", + "start_position": 16, + "end_position": 25 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Postbox 115", + "start_position": 3, + "end_position": 14 + }, + { + "entity_type": "ADDRESS", + "entity_value": "77", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Joe had given Kristin his address: 76 Stubben 149", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Stubben 149", + "start_position": 38, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "76", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Kristin", + "start_position": 14, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Joe", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "here's my ssn: 887-77-8700", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "887-77-8700", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call (12) 3650-8833", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(12) 3650-8833", + "start_position": 35, + "end_position": 49 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "they had 6: natalina, thomas, crystal, omar, zachary and brandy.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "brandy", + "start_position": 57, + "end_position": 63 + }, + { + "entity_type": "PERSON", + "entity_value": "zachary", + "start_position": 45, + "end_position": 52 + }, + { + "entity_type": "PERSON", + "entity_value": "omar", + "start_position": 39, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "crystal", + "start_position": 30, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "thomas", + "start_position": 22, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "natalina", + "start_position": 12, + "end_position": 20 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Why is Marie so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Marie", + "start_position": 7, + "end_position": 12 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 04 320 St Marys Rd Suite 658 Winnipeg Manitoba", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "04 320 St Marys Rd Suite 658 Winnipeg Manitoba", + "start_position": 26, + "end_position": 72 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "masked": "God gave rock and roll to you, gave rock and roll to you, put it in the soul of everyone.", + "spans": [], + "template_id": 165, + "metadata": null + }, + { + "full_text": "Hello, this is Dr. Taylor Andersen. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Taylor Andersen", + "start_position": 19, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "Dariusz, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Dariusz", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "my iban is gb12spfc66723974480868", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "gb12spfc66723974480868", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Joshua had given Mikal his address: 20 1432 Gemsbok St, Bakone", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bakone", + "start_position": 56, + "end_position": 62 + }, + { + "entity_type": "ADDRESS", + "entity_value": "1432 Gemsbok St", + "start_position": 39, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "20", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Mikal", + "start_position": 17, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Joshua", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "You said your email is AlibekGodina@fleckens.hu. Is that correct?", + "masked": "You said your email is {{email}}. Is that correct?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "AlibekGodina@fleckens.hu", + "start_position": 23, + "end_position": 47 + } + ], + "template_id": 62, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "What's your credit card? 4556971255253561", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556971255253561", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in ΚΑΤΩ ΠΟΛΕΜΙ∆ΙΑ, Optigov is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Optigov", + "start_position": 45, + "end_position": 52 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΚΑΤΩ ΠΟΛΕΜΙ∆ΙΑ", + "start_position": 29, + "end_position": 43 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "You can tell Inessa was a huge Beth Saucier fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Beth Saucier", + "start_position": 31, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Inessa", + "start_position": 13, + "end_position": 19 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "My name is Giovanni", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Giovanni", + "start_position": 11, + "end_position": 19 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 4929578569339117", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929578569339117", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "My zip code is 90800", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "90800", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "a tribute to sarah salmela ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "sarah salmela", + "start_position": 13, + "end_position": 26 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "The Kpmg office is at Romano and ul. Paderewskiego Ignacego 85", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Romano and ul. Paderewskiego Ignacego 85", + "start_position": 22, + "end_position": 62 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Kpmg", + "start_position": 4, + "end_position": 8 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "My driver's license number is M943688896309", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "M943688896309", + "start_position": 30, + "end_position": 43 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "My driver's license number is 950735093", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "950735093", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "When: 1974-01-13 16:28:25\nWhere: København V Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "København V", + "start_position": 33, + "end_position": 44 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "1974-01-13 16:28:25", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "As promised, here's Caitlin's address:\n\n09 R Cachoeira 112 Apt. 195 Santa Marta de Penaguião Malaysia", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "09 R Cachoeira 112 Apt. 195 Santa Marta de Penaguião Malaysia", + "start_position": 40, + "end_position": 101 + }, + { + "entity_type": "PERSON", + "entity_value": "Caitlin", + "start_position": 20, + "end_position": 27 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "As promised, here's Božica's address:\n\n99 Sahankatu 77\nOrtovero\n, SV\n Nigeria 21148", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "99 Sahankatu 77\nOrtovero\n, SV\n Nigeria 21148", + "start_position": 39, + "end_position": 83 + }, + { + "entity_type": "PERSON", + "entity_value": "Božica", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Unlike the Rocha novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rocha", + "start_position": 11, + "end_position": 16 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is PSC 1960, Box 1190\nAPO AP 57098", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 1960, Box 1190\nAPO AP 57098", + "start_position": 47, + "end_position": 78 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 10/16/1987", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "10/16/1987", + "start_position": 40, + "end_position": 50 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "We'll meet Sunday at Lenddo, 19 2249 College Street, Forest Park", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Forest Park", + "start_position": 53, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "2249 College Street", + "start_position": 32, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "19", + "start_position": 29, + "end_position": 31 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Lenddo", + "start_position": 21, + "end_position": 27 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Sunday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "Brian Adomo\n\n51 24 Clarke Avenue\n Apt. 306\n Pines Beach\n Costa Rica 85226\n(027) 7972-805-Office\\,730.347.5681x8340-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "730.347.5681x8340", + "start_position": 97, + "end_position": 114 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(027) 7972-805", + "start_position": 74, + "end_position": 88 + }, + { + "entity_type": "ADDRESS", + "entity_value": "85226", + "start_position": 68, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "Costa Rica", + "start_position": 57, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "Pines Beach", + "start_position": 44, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 306", + "start_position": 34, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "24 Clarke Avenue", + "start_position": 16, + "end_position": 32 + }, + { + "entity_type": "ADDRESS", + "entity_value": "51", + "start_position": 13, + "end_position": 15 + }, + { + "entity_type": "PERSON", + "entity_value": "Brian Adomo", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "His social security number is 752-52-8258", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "752-52-8258", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "i want to update my primary and secondary address to the same: unit 2504 box 0308\ndpo ap 14926", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "unit 2504 box 0308\ndpo ap 14926", + "start_position": 63, + "end_position": 94 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "What is the limit for card 5159727265983227?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5159727265983227", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "What's your credit card? 5267046353283229", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5267046353283229", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to Edeby 55 Møller Street\n Apt. 502\n TYSTBERGA\n North Korea 51358", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Edeby 55 Møller Street\n Apt. 502\n TYSTBERGA\n North Korea 51358", + "start_position": 26, + "end_position": 88 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Name: Shawn Beaudouin\nAddress: PSC 5436, Box 5539\nAPO AA 44720", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 5436, Box 5539\nAPO AA 44720", + "start_position": 38, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Shawn Beaudouin", + "start_position": 9, + "end_position": 24 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Danny Hansen", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Danny Hansen", + "start_position": 43, + "end_position": 55 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 15 40 rue Victor Hugo\nSobeslav, JC 31334", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "15 40 rue Victor Hugo\nSobeslav, JC 31334", + "start_position": 47, + "end_position": 87 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "My name is Mr. Michael Várady but everyone calls me Carrie", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carrie", + "start_position": 52, + "end_position": 58 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr. Michael Várady", + "start_position": 11, + "end_position": 29 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "My IBAN is GB05FRQX50157044708066", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB05FRQX50157044708066", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email CharlieVincent@fleckens.hu", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "CharlieVincent@fleckens.hu", + "start_position": 39, + "end_position": 65 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "when they weren't singing about hobbits, satanic felines and interstellar journeys, they were singing about the verses from ashley spencer's cautionary tales. is there a better example of unbridled creativity than early haajanen?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "haajanen", + "start_position": 220, + "end_position": 228 + }, + { + "entity_type": "PERSON", + "entity_value": "ashley spencer", + "start_position": 124, + "end_position": 138 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "I want to add David Simpson as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "David Simpson", + "start_position": 14, + "end_position": 27 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Erik: \\\"Who are you?\\\"\nMichaela:\\\"I\\'m Kenneth\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kenneth", + "start_position": 39, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Michaela", + "start_position": 23, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Erik", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "I want to add Eric Adam as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Eric Adam", + "start_position": 14, + "end_position": 23 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "please send my portfolio to this email johncarpenter@dayrep.com", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "johncarpenter@dayrep.com", + "start_position": 39, + "end_position": 63 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "I have lost my card 5373504840495146. Could you please block my credit card ASAP ? My name is Ashley Hale.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ashley Hale", + "start_position": 94, + "end_position": 105 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5373504840495146", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Carlos Solomina).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carlos Solomina", + "start_position": 58, + "end_position": 73 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "She was born on 2/16/1962. Her maiden name is Nardone", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nardone", + "start_position": 46, + "end_position": 53 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2/16/1962", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", + "masked": "CAN I SPEAK TO A REAL PERSON?!?!", + "spans": [], + "template_id": 45, + "metadata": null + }, + { + "full_text": "We'll meet Friday at Thomas-James, 51 101 Montreal Street, Saint Clair", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Saint Clair", + "start_position": 59, + "end_position": 70 + }, + { + "entity_type": "ADDRESS", + "entity_value": "101 Montreal Street", + "start_position": 38, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "51", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Thomas-James", + "start_position": 21, + "end_position": 33 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Friday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "I'm in Philadelphia, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Philadelphia", + "start_position": 7, + "end_position": 19 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Egede and Walker were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Walker", + "start_position": 59, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Egede", + "start_position": 49, + "end_position": 54 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "David Belov\nOpen Data Nation\n90 Höfðabraut 30 Suite 497 Hvammstangi Israel\n74 831 591 office\n+1-054-353-1726x16954 fax\n(895)164-4839x7918 mobile", + "masked": "{{name}}\n{{organization}}\n{{address}}\n{{phone_number}} office\n{{phone_number}} fax\n{{phone_number}} mobile", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(895)164-4839x7918", + "start_position": 119, + "end_position": 137 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-054-353-1726x16954", + "start_position": 93, + "end_position": 114 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "74 831 591", + "start_position": 75, + "end_position": 85 + }, + { + "entity_type": "ADDRESS", + "entity_value": "90 Höfðabraut 30 Suite 497 Hvammstangi Israel", + "start_position": 29, + "end_position": 74 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Open Data Nation", + "start_position": 12, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "David Belov", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 149, + "metadata": null + }, + { + "full_text": "I can't browse to your site, keep getting address 69.196.0.85 blocked error", + "masked": "I can't browse to your site, keep getting address {{ip_address}} blocked error", + "spans": [ + { + "entity_type": "IP_ADDRESS", + "entity_value": "69.196.0.85", + "start_position": 50, + "end_position": 61 + } + ], + "template_id": 32, + "metadata": null + }, + { + "full_text": "My driver's license number is 578988637", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "578988637", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "Follow up with Sean Rajkovič in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sean Rajkovič", + "start_position": 15, + "end_position": 28 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: 01 6 Rue Hsine Eloued\nWOODGATE, QLD 36540, and 93 Eyrarlandsvegur 22 Apt. 967 Tálknafjörður Guinea", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "93 Eyrarlandsvegur 22 Apt. 967 Tálknafjörður Guinea", + "start_position": 90, + "end_position": 141 + }, + { + "entity_type": "ADDRESS", + "entity_value": "01 6 Rue Hsine Eloued\nWOODGATE, QLD 36540", + "start_position": 43, + "end_position": 84 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "What's your name? Kelsey Bustos", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kelsey Bustos", + "start_position": 18, + "end_position": 31 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "Have you been to a Sarah Yamanaka concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sarah Yamanaka", + "start_position": 19, + "end_position": 33 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "She moved here from Haiti", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Haiti", + "start_position": 20, + "end_position": 25 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "Jordan Echevarría\n\n36 Holmevej 34\n Suite 344\n København K\n Poland 97724\n51-16-34-25-Office\\,3732695155-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "3732695155", + "start_position": 92, + "end_position": 102 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "51-16-34-25", + "start_position": 72, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "97724", + "start_position": 66, + "end_position": 71 + }, + { + "entity_type": "LOCATION", + "entity_value": "Poland", + "start_position": 59, + "end_position": 65 + }, + { + "entity_type": "LOCATION", + "entity_value": "København K", + "start_position": 46, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 344", + "start_position": 35, + "end_position": 44 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Holmevej 34", + "start_position": 22, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "36", + "start_position": 19, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Jordan Echevarría", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5484942283337845", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5484942283337845", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "I have lost my card 5373137640127716. Could you please block my credit card ASAP ? My name is Jonathan Alatalo.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jonathan Alatalo", + "start_position": 94, + "end_position": 110 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5373137640127716", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 66 48 rue Petite Fusterie\nMozirje\n, nan\n Finland 83668", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66 48 rue Petite Fusterie\nMozirje\n, nan\n Finland 83668", + "start_position": 47, + "end_position": 101 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "hello i moved, please update my new address is aqqusinersuaq 62 mandić street\n apt. 946\n sisimiut\n lithuania 39143", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "aqqusinersuaq 62 mandić street\n apt. 946\n sisimiut\n lithuania 39143", + "start_position": 47, + "end_position": 114 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "It's like that since 1/20/1976", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "1/20/1976", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "David had given Selam his address: 67 Lodskovvej 28, Frederiksberg C", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Frederiksberg C", + "start_position": 53, + "end_position": 68 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Lodskovvej 28", + "start_position": 38, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "67", + "start_position": 35, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Selam", + "start_position": 16, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "David", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "As promised, here's Fiammetta's address:\n\n37 Βασιλέως Αλεξάνδρου 195\n Suite 203\n ΦΑΡΜΑΚΑΣ\n Kazakhstan", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "37 Βασιλέως Αλεξάνδρου 195\n Suite 203\n ΦΑΡΜΑΚΑΣ\n Kazakhstan", + "start_position": 42, + "end_position": 101 + }, + { + "entity_type": "PERSON", + "entity_value": "Fiammetta", + "start_position": 20, + "end_position": 29 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Emily Musliyevich\n\n68 72 Essex Rd\n Suite 203\n TAUCHERS\n Chile 53977\n079 4650 2145-Office\\,(505)498-8487x6837-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(505)498-8487x6837", + "start_position": 90, + "end_position": 108 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "079 4650 2145", + "start_position": 68, + "end_position": 81 + }, + { + "entity_type": "ADDRESS", + "entity_value": "53977", + "start_position": 62, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "Chile", + "start_position": 56, + "end_position": 61 + }, + { + "entity_type": "LOCATION", + "entity_value": "TAUCHERS", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 203", + "start_position": 35, + "end_position": 44 + }, + { + "entity_type": "ADDRESS", + "entity_value": "72 Essex Rd", + "start_position": 22, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "68", + "start_position": 19, + "end_position": 21 + }, + { + "entity_type": "PERSON", + "entity_value": "Emily Musliyevich", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Jaboticabal: Intelius, Caresetcom and Evidera. \"Don't feed me planned obsolescence,\" says Olivia Khadzhiyev in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "masked": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city {{city}}: {{organization}}, {{organization}} and {{organization}}. \"Don't feed me planned obsolescence,\" says {{person}} in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Olivia Khadzhiyev", + "start_position": 222, + "end_position": 239 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Evidera", + "start_position": 170, + "end_position": 177 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Caresetcom", + "start_position": 155, + "end_position": 165 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Intelius", + "start_position": 145, + "end_position": 153 + }, + { + "entity_type": "LOCATION", + "entity_value": "Jaboticabal", + "start_position": 132, + "end_position": 143 + } + ], + "template_id": 115, + "metadata": null + }, + { + "full_text": "I want to add Tiffany Červenková as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tiffany Červenková", + "start_position": 14, + "end_position": 32 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Mrs. Karen Thorkildsen Suite 680 36 4022 Oakridge Lane\nDallas TX 48486", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "48486", + "start_position": 65, + "end_position": 70 + }, + { + "entity_type": "ADDRESS", + "entity_value": "TX", + "start_position": 62, + "end_position": 64 + }, + { + "entity_type": "LOCATION", + "entity_value": "Dallas", + "start_position": 55, + "end_position": 61 + }, + { + "entity_type": "ADDRESS", + "entity_value": "4022 Oakridge Lane", + "start_position": 36, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "36", + "start_position": 33, + "end_position": 35 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 680", + "start_position": 23, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "Karen Thorkildsen", + "start_position": 5, + "end_position": 22 + }, + { + "entity_type": "PREFIX", + "entity_value": "Mrs.", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "you can tell signe was a huge mark zielinski fan. written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "mark zielinski", + "start_position": 30, + "end_position": 44 + }, + { + "entity_type": "PERSON", + "entity_value": "signe", + "start_position": 13, + "end_position": 18 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 5139123837961906 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5139123837961906", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "Meet me at 03 162 Theofanus Street Apt. 624 Strovolos NI", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "03 162 Theofanus Street Apt. 624 Strovolos NI", + "start_position": 11, + "end_position": 56 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "I have lost my card 4532213254254426. Could you please block my credit card ASAP ? My name is Douglas Nissen.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Douglas Nissen", + "start_position": 94, + "end_position": 108 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532213254254426", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4716103107693813", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716103107693813", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "Joe is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Joe", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 24 P.O. Box 101\n Suite 100\n Qeqertarsuaq\n Uganda 48288", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "24 P.O. Box 101\n Suite 100\n Qeqertarsuaq\n Uganda 48288", + "start_position": 63, + "end_position": 117 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "James had given Marcel his address: 92 ul. Lubartowska 42", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "ul. Lubartowska 42", + "start_position": 39, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "92", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Marcel", + "start_position": 16, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "James", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Botswana, but Brandon just has to get laid. Don't go to town, Thomas!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Thomas", + "start_position": 146, + "end_position": 152 + }, + { + "entity_type": "PERSON", + "entity_value": "Brandon", + "start_position": 98, + "end_position": 105 + }, + { + "entity_type": "LOCATION", + "entity_value": "Botswana", + "start_position": 84, + "end_position": 92 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "C'mon, sing it with me: \"You picked a fine time to leave me Kornelia, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kornelia", + "start_position": 60, + "end_position": 68 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": "card number 4929578569339117 is lost, can you please send a new one to Begoniasingel 13 Dresdner Street\n Apt. 378\n Geleen\n Togo 42785? I am in FINSPÅNG for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "FINSPÅNG", + "start_position": 143, + "end_position": 151 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Begoniasingel 13 Dresdner Street\n Apt. 378\n Geleen\n Togo 42785", + "start_position": 71, + "end_position": 133 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929578569339117", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "Joshua had given Alina his address: 18 Rua Graciliano Ramos 1950, Jacareí", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Jacareí", + "start_position": 66, + "end_position": 73 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Rua Graciliano Ramos 1950", + "start_position": 39, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "18", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "PERSON", + "entity_value": "Alina", + "start_position": 17, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Joshua", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 139, + "metadata": null + }, + { + "full_text": "Meet me at 58 Λ. Πεντέλης 152\nLjubljana, nan 53554", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "58 Λ. Πεντέλης 152\nLjubljana, nan 53554", + "start_position": 11, + "end_position": 50 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "Follow up with Erin Dalgety in 2 months.", + "masked": "Follow up with {{name}} in 2 months.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Erin Dalgety", + "start_position": 15, + "end_position": 27 + } + ], + "template_id": 170, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Anthony Matić?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Anthony Matić", + "start_position": 88, + "end_position": 101 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "They had 6: William, Darin, Michelle, Carlos, Annette and Margaret.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Margaret", + "start_position": 58, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Annette", + "start_position": 46, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Carlos", + "start_position": 38, + "end_position": 44 + }, + { + "entity_type": "PERSON", + "entity_value": "Michelle", + "start_position": 28, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Darin", + "start_position": 21, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "William", + "start_position": 12, + "end_position": 19 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "What is the limit for card 4539984176914486?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539984176914486", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Sommer is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sommer", + "start_position": 23, + "end_position": 29 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 1/30/1950", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "1/30/1950", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "How can I request a new credit card pin ?", + "masked": "How can I request a new credit card pin ?", + "spans": [], + "template_id": 17, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Tami Want).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tami Want", + "start_position": 58, + "end_position": 67 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to PSC 1560, Box 3449\nAPO AP 24937", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "PSC 1560, Box 3449\nAPO AP 24937", + "start_position": 26, + "end_position": 57 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "I want to add Jeffrey Ponomaryova as a beneficiary to my account", + "masked": "I want to add {{person}} as a beneficiary to my account", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jeffrey Ponomaryova", + "start_position": 14, + "end_position": 33 + } + ], + "template_id": 53, + "metadata": null + }, + { + "full_text": "Hi Eliza, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB92ZRLW85742620649975", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB92ZRLW85742620649975", + "start_position": 97, + "end_position": 119 + }, + { + "entity_type": "PERSON", + "entity_value": "Eliza", + "start_position": 3, + "end_position": 8 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "C'mon, sing it with me: \"You picked a fine time to leave me Carolina, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carolina", + "start_position": 60, + "end_position": 68 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on Freistädter Strasse 61 St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Freistädter Strasse 61", + "start_position": 26, + "end_position": 48 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "tyler is very reliable. you can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "tyler", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "william had given natasja his address: 17 rijksweg 145", + "masked": "{{first_name_male}} had given {{first_name}} his address: {{building_number}} {{street_name}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "rijksweg 145", + "start_position": 42, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "17", + "start_position": 39, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "natasja", + "start_position": 18, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "william", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 138, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Scott Dudek", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Scott Dudek", + "start_position": 43, + "end_position": 54 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "My credit card 5494567211581053 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5494567211581053", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 8/10/1988", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "8/10/1988", + "start_position": 40, + "end_position": 49 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "How can we reach you? You can call 051-363-821", + "masked": "How can we reach you? You can call {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "051-363-821", + "start_position": 35, + "end_position": 46 + } + ], + "template_id": 70, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 30 Kooli 11\nTrebelovice, VY 76825. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "30 Kooli 11\nTrebelovice, VY 76825", + "start_position": 27, + "end_position": 60 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "79 Degnehøjvej 19\n Apt. 164\n Skærbæk\n Cambodia 29408", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "29408", + "start_position": 47, + "end_position": 52 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cambodia", + "start_position": 38, + "end_position": 46 + }, + { + "entity_type": "LOCATION", + "entity_value": "Skærbæk", + "start_position": 29, + "end_position": 36 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 164", + "start_position": 19, + "end_position": 27 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Degnehøjvej 19", + "start_position": 3, + "end_position": 17 + }, + { + "entity_type": "ADDRESS", + "entity_value": "79", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "She was born on 5/18/1956. Her maiden name is Kvalheim", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kvalheim", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "5/18/1956", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "My zip code is 18404", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "18404", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "What is the limit for card 5134587706417072?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5134587706417072", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "The address of Whitby Group is 07 Sterre der Zeestraat 197\nKÖPMANHOLMEN, nan 76457", + "masked": "The address of {{organization}} is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "07 Sterre der Zeestraat 197\nKÖPMANHOLMEN, nan 76457", + "start_position": 31, + "end_position": 82 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Whitby Group", + "start_position": 15, + "end_position": 27 + } + ], + "template_id": 87, + "metadata": null + }, + { + "full_text": "Sometimes people call me Margaret", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Margaret", + "start_position": 25, + "end_position": 33 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "Here's my SSN: 161-42-3291", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "161-42-3291", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "How do I open my credit card statement?", + "masked": "How do I open my credit card statement?", + "spans": [], + "template_id": 20, + "metadata": null + }, + { + "full_text": "Maybe it's under Scott Deutekom", + "masked": "Maybe it's under {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Scott Deutekom", + "start_position": 17, + "end_position": 31 + } + ], + "template_id": 78, + "metadata": null + }, + { + "full_text": "My card 4539316445113261 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539316445113261", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "How do I change my address to 31 Alt Reinickendorf 63\nGRIMMET\n, nan\n Ecuador 09102 for post mail?", + "masked": "How do I change my address to {{address}} for post mail?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "31 Alt Reinickendorf 63\nGRIMMET\n, nan\n Ecuador 09102", + "start_position": 30, + "end_position": 82 + } + ], + "template_id": 27, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Ruoho and Spencer were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Spencer", + "start_position": 59, + "end_position": 66 + }, + { + "entity_type": "PERSON", + "entity_value": "Ruoho", + "start_position": 49, + "end_position": 54 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on 3541 Pritchard Court St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "3541 Pritchard Court", + "start_position": 26, + "end_position": 46 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Nicole Matthíasson", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Nicole Matthíasson", + "start_position": 58, + "end_position": 76 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "Name: Annette Oddgeirsdóttir\nAddress: 15 1668 Glyn St\nKõrkküla, JN 36868", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "15 1668 Glyn St\nKõrkküla, JN 36868", + "start_position": 45, + "end_position": 79 + }, + { + "entity_type": "PERSON", + "entity_value": "Annette Oddgeirsdóttir", + "start_position": 9, + "end_position": 31 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "Hi Ella, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB31PHDF79244949806775", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB31PHDF79244949806775", + "start_position": 96, + "end_position": 118 + }, + { + "entity_type": "PERSON", + "entity_value": "Ella", + "start_position": 3, + "end_position": 7 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "Leah is a very sympathetic person. They are also good listeners.", + "masked": "{{first_name_nonbinary}} is a very sympathetic person. They are also good listeners.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Leah", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 90, + "metadata": null + }, + { + "full_text": "I'm in Laneia, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Laneia", + "start_position": 7, + "end_position": 13 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "card number 5595799159976957 is lost, can you please send a new one to Felicity and Hraunás 84? I am in Buják for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Buják", + "start_position": 104, + "end_position": 109 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Felicity and Hraunás 84", + "start_position": 71, + "end_position": 94 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5595799159976957", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "My website is http://www.TuxService.se/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://www.TuxService.se/", + "start_position": 14, + "end_position": 39 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "The Scott Vodir version recorded for Onstar became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Onstar", + "start_position": 37, + "end_position": 43 + }, + { + "entity_type": "PERSON", + "entity_value": "Scott Vodir", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "Just posted a photo https://www.MetroFlorists.tn/", + "masked": "Just posted a photo {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://www.MetroFlorists.tn/", + "start_position": 20, + "end_position": 49 + } + ], + "template_id": 80, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Roeterdink and Lopez were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lopez", + "start_position": 64, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Roeterdink", + "start_position": 49, + "end_position": 59 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4716752239540480 on my e-mail TristanBouvier@einrot.com?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "TristanBouvier@einrot.com", + "start_position": 85, + "end_position": 110 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716752239540480", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "My credit card 5106107318382335 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5106107318382335", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "Christopher Salgado\n\n43 ul. Królowej Jadwigi 112\n Suite 339\n Inowrocław\n Belgium 05917", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "05917", + "start_position": 81, + "end_position": 86 + }, + { + "entity_type": "LOCATION", + "entity_value": "Belgium", + "start_position": 73, + "end_position": 80 + }, + { + "entity_type": "LOCATION", + "entity_value": "Inowrocław", + "start_position": 61, + "end_position": 71 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 339", + "start_position": 50, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "ul. Królowej Jadwigi 112", + "start_position": 24, + "end_position": 48 + }, + { + "entity_type": "ADDRESS", + "entity_value": "43", + "start_position": 21, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Christopher Salgado", + "start_position": 0, + "end_position": 19 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Mandel and Daniels were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Daniels", + "start_position": 60, + "end_position": 67 + }, + { + "entity_type": "PERSON", + "entity_value": "Mandel", + "start_position": 49, + "end_position": 55 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "During the 1990s, Canon invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Canon", + "start_position": 18, + "end_position": 23 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "During the 1990s, Allstate Insurance Group invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Allstate Insurance Group", + "start_position": 18, + "end_position": 42 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "Have you been to a Carla Salcido concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Carla Salcido", + "start_position": 19, + "end_position": 32 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Mikkel to Edward", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Edward", + "start_position": 31, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Mikkel", + "start_position": 21, + "end_position": 27 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "Propeller Health\n\n33 Amerveldstraat 2\nFraile Muerto\n, CA\n 72217", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "33 Amerveldstraat 2\nFraile Muerto\n, CA\n 72217", + "start_position": 18, + "end_position": 63 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Propeller Health", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Bot: What's the name on the account? User: Christina Rosing", + "masked": "Bot: What's the name on the account? User: {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Christina Rosing", + "start_position": 43, + "end_position": 59 + } + ], + "template_id": 43, + "metadata": null + }, + { + "full_text": "Name: Maria Jaworski\nAddress: P.O. Box 194 Fernandes Street\n Suite 258\n Upernavik\n Malta 62401", + "masked": "Name: {{name}}\nAddress: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 194 Fernandes Street\n Suite 258\n Upernavik\n Malta 62401", + "start_position": 37, + "end_position": 101 + }, + { + "entity_type": "PERSON", + "entity_value": "Maria Jaworski", + "start_position": 9, + "end_position": 23 + } + ], + "template_id": 169, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Mai to Jerry", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jerry", + "start_position": 28, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "Mai", + "start_position": 21, + "end_position": 24 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "The letter arrived at 58 Guipúzcoa 1268 Apt. 283 Rocha Afghanistan last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "58 Guipúzcoa 1268 Apt. 283 Rocha Afghanistan", + "start_position": 22, + "end_position": 66 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "My zip code is 86881", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "86881", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "My website is https://InsuranceSeries.uy/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://InsuranceSeries.uy/", + "start_position": 14, + "end_position": 41 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "Could you please send me the last billed amount for cc 4929682142792501 on my e-mail JasminTRasmussen@fleckens.hu?", + "masked": "Could you please send me the last billed amount for cc {{credit_card_number}} on my e-mail {{email}}?", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "JasminTRasmussen@fleckens.hu", + "start_position": 85, + "end_position": 113 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929682142792501", + "start_position": 55, + "end_position": 71 + } + ], + "template_id": 26, + "metadata": null + }, + { + "full_text": "Orville shouted at Tyler: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Tyler", + "start_position": 19, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Orville", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "A great song made even greater by a mandolin coda (not by Aaron Barajas).", + "masked": "A great song made even greater by a mandolin coda (not by {{person}}).", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Aaron Barajas", + "start_position": 58, + "end_position": 71 + } + ], + "template_id": 105, + "metadata": null + }, + { + "full_text": "My website is http://MarketRepair.com/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "http://MarketRepair.com/", + "start_position": 14, + "end_position": 38 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "My name is Julia Vizirov but everyone calls me Samira", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Samira", + "start_position": 47, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Julia Vizirov", + "start_position": 11, + "end_position": 24 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "The Curtis Hill version recorded for Ortiz LLC became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "masked": "The {{person}} version recorded for {{organization}} became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Ortiz LLC", + "start_position": 37, + "end_position": 46 + }, + { + "entity_type": "PERSON", + "entity_value": "Curtis Hill", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 113, + "metadata": null + }, + { + "full_text": "My card 4916785993698233 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916785993698233", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5454639881222959", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5454639881222959", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "Michael Culp lives at 55 ul. Podleśna 17, Katowice", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Katowice", + "start_position": 42, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "ul. Podleśna 17", + "start_position": 25, + "end_position": 40 + }, + { + "entity_type": "ADDRESS", + "entity_value": "55", + "start_position": 22, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Michael Culp", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email RichardYGreen@cuvox.de", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "RichardYGreen@cuvox.de", + "start_position": 39, + "end_position": 61 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "The letter arrived at 53 524 Ireland St\n Apt. 922\n Nelspruit\n Kingdom of the Netherlands 96758 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "53 524 Ireland St\n Apt. 922\n Nelspruit\n Kingdom of the Netherlands 96758", + "start_position": 22, + "end_position": 94 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "Shawn Szöts listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Brandon Sanches ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandon Sanches", + "start_position": 167, + "end_position": 182 + }, + { + "entity_type": "PERSON", + "entity_value": "Shawn Szöts", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "Hello, this is Dr. Kent Jaworski. Who are you?", + "masked": "Hello, this is {{prefix_male}} {{name_male}}. Who are you?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kent Jaworski", + "start_position": 19, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "Dr.", + "start_position": 15, + "end_position": 18 + } + ], + "template_id": 52, + "metadata": null + }, + { + "full_text": "Unlike the Martinsson novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "masked": "Unlike the {{last_name}} novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Martinsson", + "start_position": 11, + "end_position": 21 + } + ], + "template_id": 99, + "metadata": null + }, + { + "full_text": "The letter arrived at 29 ul. Franciszkańska 12 Suite 857 Warszawa Australia last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "29 ul. Franciszkańska 12 Suite 857 Warszawa Australia", + "start_position": 22, + "end_position": 75 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "They're not answering at (021) 0025-967", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(021) 0025-967", + "start_position": 25, + "end_position": 39 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "Underwood-Brown\n\n24 Schietboompleinstraat 391\nPISCHK\n, ST\n 34130", + "masked": "{{organization}}\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "24 Schietboompleinstraat 391\nPISCHK\n, ST\n 34130", + "start_position": 17, + "end_position": 64 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Underwood-Brown", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 147, + "metadata": null + }, + { + "full_text": "Frank Nolan listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Ronald Abbott Jr. ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ronald Abbott Jr.", + "start_position": 167, + "end_position": 184 + }, + { + "entity_type": "PERSON", + "entity_value": "Frank Nolan", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": ">Briana Khadzhiyev\n>Genability\n>Maria Wirtz\n>94 P.O. Box 101\n>Suite 546\n>Qeqertarsuaq\n>Cameroon 52897", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "52897", + "start_position": 96, + "end_position": 101 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cameroon", + "start_position": 87, + "end_position": 95 + }, + { + "entity_type": "LOCATION", + "entity_value": "Qeqertarsuaq", + "start_position": 73, + "end_position": 85 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 546", + "start_position": 62, + "end_position": 71 + }, + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 101", + "start_position": 48, + "end_position": 60 + }, + { + "entity_type": "ADDRESS", + "entity_value": "94", + "start_position": 45, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Maria Wirtz", + "start_position": 32, + "end_position": 43 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Genability", + "start_position": 20, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Briana Khadzhiyev", + "start_position": 1, + "end_position": 18 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "Who's coming to Republic of the Congo with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Republic of the Congo", + "start_position": 16, + "end_position": 37 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "The Analytica office is at Greta and Michaelkirchstr. 15", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Greta and Michaelkirchstr. 15", + "start_position": 27, + "end_position": 56 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Analytica", + "start_position": 4, + "end_position": 13 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "I'm moving out of the country, so please cancel my subscription", + "masked": "I'm moving out of the country, so please cancel my subscription", + "spans": [], + "template_id": 59, + "metadata": null + }, + { + "full_text": "It's like that since 1/13/1977", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "1/13/1977", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "Madison: \\\"Who are you?\\\"\nSara:\\\"I\\'m Timothy\\'s daughter\\\".", + "masked": "{{first_name}}: \\\"Who are you?\\\"\n{{first_name_female}}:\\\"I\\'m {{first_name}}\\'s daughter\\\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Timothy", + "start_position": 38, + "end_position": 45 + }, + { + "entity_type": "PERSON", + "entity_value": "Sara", + "start_position": 26, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Madison", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 173, + "metadata": null + }, + { + "full_text": ">Jill Vinklárková\n>Underwood-Brown\n>Laura Pisani\n>51 1819 St. John Street\n>Apt. 327\n>Archerwill\n>Federated States of Micronesia 47980", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "47980", + "start_position": 128, + "end_position": 133 + }, + { + "entity_type": "LOCATION", + "entity_value": "Federated States of Micronesia", + "start_position": 97, + "end_position": 127 + }, + { + "entity_type": "LOCATION", + "entity_value": "Archerwill", + "start_position": 85, + "end_position": 95 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 327", + "start_position": 75, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "1819 St. John Street", + "start_position": 53, + "end_position": 73 + }, + { + "entity_type": "ADDRESS", + "entity_value": "51", + "start_position": 50, + "end_position": 52 + }, + { + "entity_type": "PERSON", + "entity_value": "Laura Pisani", + "start_position": 36, + "end_position": 48 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Underwood-Brown", + "start_position": 19, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Jill Vinklárková", + "start_position": 1, + "end_position": 17 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "I want to update my primary and secondary address to the same: 01 Purje 57\n Apt. 626\n Ridalepa\n Mali 44998", + "masked": "I want to update my primary and secondary address to the same: {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "01 Purje 57\n Apt. 626\n Ridalepa\n Mali 44998", + "start_position": 63, + "end_position": 106 + } + ], + "template_id": 3, + "metadata": null + }, + { + "full_text": "I want to increase limit on my card # 4485014643728345 for certain duration of time. is it possible?", + "masked": "I want to increase limit on my card # {{credit_card_number}} for certain duration of time. is it possible?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485014643728345", + "start_position": 38, + "end_position": 54 + } + ], + "template_id": 0, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Christopher Boni and starring Duncan", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Duncan", + "start_position": 90, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Christopher Boni", + "start_position": 60, + "end_position": 76 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "Meet me at 47 126 Paturoa Road\nNußdorf, BY 72721", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "47 126 Paturoa Road\nNußdorf, BY 72721", + "start_position": 11, + "end_position": 48 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "Pamela Krčmář\n\n34 Auerstrasse 84\n Apt. 469\n Lyss\n São Tomé and Príncipe 14600\n032 385 68 19-Office\\,377-417-3759-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "377-417-3759", + "start_position": 103, + "end_position": 115 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "032 385 68 19", + "start_position": 81, + "end_position": 94 + }, + { + "entity_type": "ADDRESS", + "entity_value": "14600", + "start_position": 75, + "end_position": 80 + }, + { + "entity_type": "LOCATION", + "entity_value": "São Tomé and Príncipe", + "start_position": 50, + "end_position": 74 + }, + { + "entity_type": "LOCATION", + "entity_value": "Lyss", + "start_position": 44, + "end_position": 48 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 469", + "start_position": 34, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Auerstrasse 84", + "start_position": 18, + "end_position": 32 + }, + { + "entity_type": "ADDRESS", + "entity_value": "34", + "start_position": 15, + "end_position": 17 + }, + { + "entity_type": "PERSON", + "entity_value": "Pamela Krčmář", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "Kaypa is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kaypa", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "C'mon, sing it with me: \"You picked a fine time to leave me Rachael, four hungry children and a crop in the field...\"", + "masked": "C'mon, sing it with me: \"You picked a fine time to leave me {{first_name}}, four hungry children and a crop in the field...\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rachael", + "start_position": 60, + "end_position": 67 + } + ], + "template_id": 102, + "metadata": null + }, + { + "full_text": "My IBAN is GB03TXHR13910121426966", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB03TXHR13910121426966", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Phillip Adomo\n\n99 3503 Bicetown Road\n Apt. 589\n New York\n Argentina 08429", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "08429", + "start_position": 68, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "Argentina", + "start_position": 58, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "New York", + "start_position": 48, + "end_position": 56 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 589", + "start_position": 38, + "end_position": 46 + }, + { + "entity_type": "ADDRESS", + "entity_value": "3503 Bicetown Road", + "start_position": 18, + "end_position": 36 + }, + { + "entity_type": "ADDRESS", + "entity_value": "99", + "start_position": 15, + "end_position": 17 + }, + { + "entity_type": "PERSON", + "entity_value": "Phillip Adomo", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 129, + "metadata": null + }, + { + "full_text": "??? Shari Sagese\n??? Marlin Alter And Associates\n??? 85 Ηλίου 64\n??? Apt. 836\n??? ΛΑΡΝΑΚΑ\n??? Uganda 80084", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "80084", + "start_position": 101, + "end_position": 106 + }, + { + "entity_type": "LOCATION", + "entity_value": "Uganda", + "start_position": 94, + "end_position": 100 + }, + { + "entity_type": "LOCATION", + "entity_value": "ΛΑΡΝΑΚΑ", + "start_position": 82, + "end_position": 89 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 836", + "start_position": 69, + "end_position": 77 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Ηλίου 64", + "start_position": 56, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "85", + "start_position": 53, + "end_position": 55 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Marlin Alter And Associates", + "start_position": 21, + "end_position": 48 + }, + { + "entity_type": "PERSON", + "entity_value": "Shari Sagese", + "start_position": 4, + "end_position": 16 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "card number 5527967194945427 is lost, can you please send a new one to USNV Heilmann\nFPO AE 13689? I am in Letaba for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Letaba", + "start_position": 107, + "end_position": 113 + }, + { + "entity_type": "ADDRESS", + "entity_value": "USNV Heilmann\nFPO AE 13689", + "start_position": 71, + "end_position": 97 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5527967194945427", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "Hi Abraham, I'm contacting you about a problem I have with sending a wire transfer using this IBAN GB50QJCD15354384305704", + "masked": "Hi {{first_name}}, I'm contacting you about a problem I have with sending a wire transfer using this IBAN {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB50QJCD15354384305704", + "start_position": 99, + "end_position": 121 + }, + { + "entity_type": "PERSON", + "entity_value": "Abraham", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 75, + "metadata": null + }, + { + "full_text": "A tribute to Jesus Ohara ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jesus Ohara", + "start_position": 13, + "end_position": 24 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Albert to Jesus", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jesus", + "start_position": 31, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Albert", + "start_position": 21, + "end_position": 27 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 12/11/1952", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "12/11/1952", + "start_position": 40, + "end_position": 50 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Cojzer is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Cojzer", + "start_position": 23, + "end_position": 29 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "My name appears incorrectly on credit card statement could you please correct it to Mr. Ryan Ziherl?", + "masked": "My name appears incorrectly on credit card statement could you please correct it to {{prefix_male}} {{name_male}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ryan Ziherl", + "start_position": 88, + "end_position": 99 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 84, + "end_position": 87 + } + ], + "template_id": 28, + "metadata": null + }, + { + "full_text": "The Garmin office is at 66 76 Boulevard de Normandie Suite 106 FONTAINE RA", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66 76 Boulevard de Normandie Suite 106 FONTAINE RA", + "start_position": 24, + "end_position": 74 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Garmin", + "start_position": 4, + "end_position": 10 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "kelima is from brightscope", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "brightscope", + "start_position": 15, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "kelima", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "Meet me at Spencer and Søndre Havnevej 65", + "masked": "Meet me at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Spencer and Søndre Havnevej 65", + "start_position": 11, + "end_position": 41 + } + ], + "template_id": 72, + "metadata": null + }, + { + "full_text": "My website is https://AquariamTheater.at/", + "masked": "My website is {{url}}", + "spans": [ + { + "entity_type": "DOMAIN_NAME", + "entity_value": "https://AquariamTheater.at/", + "start_position": 14, + "end_position": 41 + } + ], + "template_id": 81, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Denmark, but Keijo just has to get laid. Don't go to town, Brandon!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandon", + "start_position": 143, + "end_position": 150 + }, + { + "entity_type": "PERSON", + "entity_value": "Keijo", + "start_position": 97, + "end_position": 102 + }, + { + "entity_type": "LOCATION", + "entity_value": "Denmark", + "start_position": 84, + "end_position": 91 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Urías and Mclaughlin were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mclaughlin", + "start_position": 59, + "end_position": 69 + }, + { + "entity_type": "PERSON", + "entity_value": "Urías", + "start_position": 49, + "end_position": 54 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "I'm so jealous! said Einar to Kristy", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kristy", + "start_position": 30, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Einar", + "start_position": 21, + "end_position": 26 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "who's coming to philippines with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "philippines", + "start_position": 16, + "end_position": 27 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "Have you been to a Mark Aranda concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mark Aranda", + "start_position": 19, + "end_position": 30 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "my credit card 5498878581177505 has been lost, can i request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5498878581177505", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "Pedestrians must enter on Dirk de Derdelaan 149 St. the first three months", + "masked": "Pedestrians must enter on {{street_name}} St. the first three months", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Dirk de Derdelaan 149", + "start_position": 26, + "end_position": 47 + } + ], + "template_id": 156, + "metadata": null + }, + { + "full_text": "You can tell Alexandra was a huge Andrea Kadiev fan. Written when he was only 14.", + "masked": "You can tell {{first_name}} was a huge {{person}} fan. Written when he was only 14.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Andrea Kadiev", + "start_position": 34, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Alexandra", + "start_position": 13, + "end_position": 22 + } + ], + "template_id": 108, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "Is there a better crafted pop song on this list? Alonso and Lee were precision engineers.", + "masked": "Is there a better crafted pop song on this list? {{last_name}} and {{last_name}} were precision engineers.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lee", + "start_position": 60, + "end_position": 63 + }, + { + "entity_type": "PERSON", + "entity_value": "Alonso", + "start_position": 49, + "end_position": 55 + } + ], + "template_id": 101, + "metadata": null + }, + { + "full_text": "we moved here from stains", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "stains", + "start_position": 19, + "end_position": 25 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "Why is Bent so impulsive?", + "masked": "Why is {{first_name}} so impulsive?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Bent", + "start_position": 7, + "end_position": 11 + } + ], + "template_id": 92, + "metadata": null + }, + { + "full_text": "When: 2017-10-11 03:54:51\nWhere: Malmesbury Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Malmesbury", + "start_position": 33, + "end_position": 43 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2017-10-11 03:54:51", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in Unit 9104 Box 2779\nDPO AP 29547", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 9104 Box 2779\nDPO AP 29547", + "start_position": 132, + "end_position": 163 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "They had 6: Viliam, Robert, Marvin, Steven, Eric and Brandon.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brandon", + "start_position": 53, + "end_position": 60 + }, + { + "entity_type": "PERSON", + "entity_value": "Eric", + "start_position": 44, + "end_position": 48 + }, + { + "entity_type": "PERSON", + "entity_value": "Steven", + "start_position": 36, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Marvin", + "start_position": 28, + "end_position": 34 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert", + "start_position": 20, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Viliam", + "start_position": 12, + "end_position": 18 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "Raimond, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Raimond", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "Here's my SSN: 127-13-9574", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "127-13-9574", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "We'll meet Sunday at Personal Inc., 02 P.O. Box 46, Kulusuk", + "masked": "We'll meet {{day_of_week}} at {{organization}}, {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kulusuk", + "start_position": 52, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "P.O. Box 46", + "start_position": 39, + "end_position": 50 + }, + { + "entity_type": "ADDRESS", + "entity_value": "02", + "start_position": 36, + "end_position": 38 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Personal Inc.", + "start_position": 21, + "end_position": 34 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "Sunday", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 158, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "Bohuslav shouted at Kathryn: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kathryn", + "start_position": 20, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Bohuslav", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "Sometimes people call me Honoré", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Honoré", + "start_position": 25, + "end_position": 31 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 24 14 rue du Président Roosevelt Apt. 889 SAUMUR Andorra", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "24 14 rue du Président Roosevelt Apt. 889 SAUMUR Andorra", + "start_position": 26, + "end_position": 82 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "She was born on 4/20/2000. Her maiden name is Sergeyeva", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sergeyeva", + "start_position": 46, + "end_position": 55 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "4/20/2000", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Regina is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Regina", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "dominique kapanen\ndairy scientist\nkiddie city\n86 fuente del gallo 4 suite 236 corcubión a coruña", + "masked": "{{person}}\n{{job}}\n{{company}}\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "86 fuente del gallo 4 suite 236 corcubión a coruña", + "start_position": 46, + "end_position": 96 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "kiddie city", + "start_position": 34, + "end_position": 45 + }, + { + "entity_type": "TITLE", + "entity_value": "dairy scientist", + "start_position": 18, + "end_position": 33 + }, + { + "entity_type": "PERSON", + "entity_value": "dominique kapanen", + "start_position": 0, + "end_position": 17 + } + ], + "template_id": 144, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add Ian Fransson as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ian Fransson", + "start_position": 46, + "end_position": 58 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "My friend lives in Hrušica", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Hrušica", + "start_position": 19, + "end_position": 26 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "Here's my SSN: 566-64-4119", + "masked": "Here's my SSN: {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "566-64-4119", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 89, + "metadata": null + }, + { + "full_text": "She moved here from Bosnia and Herzegovina", + "masked": "She moved here from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bosnia and Herzegovina", + "start_position": 20, + "end_position": 42 + } + ], + "template_id": 160, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Saibara is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Saibara", + "start_position": 23, + "end_position": 30 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "It's like that since 10/27/1989", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "10/27/1989", + "start_position": 21, + "end_position": 31 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "What's your name? James Weber", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "James Weber", + "start_position": 18, + "end_position": 29 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "They're not answering at 06-65334860", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "06-65334860", + "start_position": 25, + "end_position": 36 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "My name is Ronald Saibara but everyone calls me Sylwia", + "masked": "My name is {{person}} but everyone calls me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sylwia", + "start_position": 48, + "end_position": 54 + }, + { + "entity_type": "PERSON", + "entity_value": "Ronald Saibara", + "start_position": 11, + "end_position": 25 + } + ], + "template_id": 60, + "metadata": null + }, + { + "full_text": "My card 4539289860169979 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539289860169979", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "i'd like it to be sent to the corner of hochstrasse 63 and henriksen street", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of hochstrasse 63 and henriksen street", + "start_position": 26, + "end_position": 75 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Who's coming to Nicaragua with me?", + "masked": "Who's coming to {{country}} with me?", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Nicaragua", + "start_position": 16, + "end_position": 25 + } + ], + "template_id": 23, + "metadata": null + }, + { + "full_text": "Theresa Gjerde lives at 19 Sokolská 1475, Hrotovice", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Hrotovice", + "start_position": 42, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Sokolská 1475", + "start_position": 27, + "end_position": 40 + }, + { + "entity_type": "ADDRESS", + "entity_value": "19", + "start_position": 24, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Theresa Gjerde", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "They're not answering at 481 7531", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "481 7531", + "start_position": 25, + "end_position": 33 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "They're not answering at 0650 995 04 94", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0650 995 04 94", + "start_position": 25, + "end_position": 39 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "We moved here from Berlin Spandau", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Berlin Spandau", + "start_position": 19, + "end_position": 33 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "Please update the billing address with the corner of Erzsébet tér 19. and Marinović Street for this card: 5326509786539854", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5326509786539854", + "start_position": 106, + "end_position": 122 + }, + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Erzsébet tér 19. and Marinović Street", + "start_position": 39, + "end_position": 90 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "I'm originally from Panama", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Panama", + "start_position": 20, + "end_position": 26 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "In Burundi they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Seth Mathiassen points out, \"most are horrible\".", + "masked": "In {{country}} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter {{person}} points out, \"most are horrible\".", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Seth Mathiassen", + "start_position": 134, + "end_position": 149 + }, + { + "entity_type": "LOCATION", + "entity_value": "Burundi", + "start_position": 3, + "end_position": 10 + } + ], + "template_id": 114, + "metadata": null + }, + { + "full_text": "I have lost my card 4539301019673114. Could you please block my credit card ASAP ? My name is Kimberly Pinto.", + "masked": "I have lost my card {{credit_card_number}}. Could you please block my credit card ASAP ? My name is {{person}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kimberly Pinto", + "start_position": 94, + "end_position": 108 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539301019673114", + "start_position": 20, + "end_position": 36 + } + ], + "template_id": 10, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "Zoolander is a 2001 American action-comedy film directed by Mr. Tony Hussain and starring Moïse", + "masked": "Zoolander is a 2001 American action-comedy film directed by {{person}} and starring {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Moïse", + "start_position": 90, + "end_position": 95 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr. Tony Hussain", + "start_position": 60, + "end_position": 76 + } + ], + "template_id": 122, + "metadata": null + }, + { + "full_text": "I need to add my addresses, here they are: Frørupvej 65 Hoff Street\n Apt. 415\n København K\n Jordan 90099, and 44 916 rue Garneau Suite 213 Quebec QC", + "masked": "I need to add my addresses, here they are: {{address}}, and {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "44 916 rue Garneau Suite 213 Quebec QC", + "start_position": 110, + "end_position": 148 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Frørupvej 65 Hoff Street\n Apt. 415\n København K\n Jordan 90099", + "start_position": 43, + "end_position": 104 + } + ], + "template_id": 50, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Horvatinčić is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Horvatinčić", + "start_position": 23, + "end_position": 34 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "The Amida Technology Solutions office is at Jan and Archkogl 67", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Jan and Archkogl 67", + "start_position": 44, + "end_position": 63 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Amida Technology Solutions", + "start_position": 4, + "end_position": 30 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 10 C. Beerninckstraat 88 Apt. 430 Mijdrecht Armenia", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "10 C. Beerninckstraat 88 Apt. 430 Mijdrecht Armenia", + "start_position": 26, + "end_position": 77 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "Please update the billing address with 44 91 Manor Way\nPicton\n, nan\n 14176 for this card: 5271372043395155", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5271372043395155", + "start_position": 90, + "end_position": 106 + }, + { + "entity_type": "ADDRESS", + "entity_value": "44 91 Manor Way\nPicton\n, nan\n 14176", + "start_position": 39, + "end_position": 74 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "my zip code is 86786", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "86786", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "One of the most depressing songs on the list. He's injured from the waist down from Barbados, but Patrice just has to get laid. Don't go to town, Candice!", + "masked": "One of the most depressing songs on the list. He's injured from the waist down from {{country}}, but {{first_name}} just has to get laid. Don't go to town, {{first_name}}!", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Candice", + "start_position": 146, + "end_position": 153 + }, + { + "entity_type": "PERSON", + "entity_value": "Patrice", + "start_position": 98, + "end_position": 105 + }, + { + "entity_type": "LOCATION", + "entity_value": "Barbados", + "start_position": 84, + "end_position": 92 + } + ], + "template_id": 100, + "metadata": null + }, + { + "full_text": "Excuse me, Sir bot, but I really don't like this tone", + "masked": "Excuse me, Sir bot, but I really don't like this tone", + "spans": [], + "template_id": 34, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Elizabeth Gomes", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Elizabeth Gomes", + "start_position": 58, + "end_position": 73 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "My IBAN is GB39KXYZ94874700365231", + "masked": "My IBAN is {{iban}}", + "spans": [ + { + "entity_type": "IBAN_CODE", + "entity_value": "GB39KXYZ94874700365231", + "start_position": 11, + "end_position": 33 + } + ], + "template_id": 82, + "metadata": null + }, + { + "full_text": "Have you been to a Brianna Kakuta concert before?", + "masked": "Have you been to a {{person}} concert before?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brianna Kakuta", + "start_position": 19, + "end_position": 33 + } + ], + "template_id": 95, + "metadata": null + }, + { + "full_text": "When: 2002-11-22 18:02:08\nWhere: Linnakse Country Club.", + "masked": "When: {{date_time}}\nWhere: {{city}} Country Club.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Linnakse", + "start_position": 33, + "end_position": 41 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2002-11-22 18:02:08", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 157, + "metadata": null + }, + { + "full_text": "Debra Stuit, the Publicist, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Publicist", + "start_position": 17, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Debra Stuit", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "blink-182 pay tribute here to the sri lanka. producer lori tretyakova dds explained to fuse tv: \"we all liked the idea of writing a song about our state, where we live and love. to me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "lori tretyakova dds", + "start_position": 54, + "end_position": 73 + }, + { + "entity_type": "LOCATION", + "entity_value": "sri lanka", + "start_position": 34, + "end_position": 43 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "what's your name? jillian capon", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "jillian capon", + "start_position": 18, + "end_position": 31 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": ">Kimberly van den Bogaert\n>Underwood Group\n>Lauren Napolitano\n>81 Duizendmonnikenstraat 189\n>Suite 829\n>Sint Anthonis\n>Tonga 04169", + "masked": ">{{name}}\n>{{organization}}\n>{{person}}\n>{{building_number}} {{street_name}}\n>{{secondary_address}}\n>{{city}}\n>{{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "04169", + "start_position": 125, + "end_position": 130 + }, + { + "entity_type": "LOCATION", + "entity_value": "Tonga", + "start_position": 119, + "end_position": 124 + }, + { + "entity_type": "LOCATION", + "entity_value": "Sint Anthonis", + "start_position": 104, + "end_position": 117 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 829", + "start_position": 93, + "end_position": 102 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Duizendmonnikenstraat 189", + "start_position": 66, + "end_position": 91 + }, + { + "entity_type": "ADDRESS", + "entity_value": "81", + "start_position": 63, + "end_position": 65 + }, + { + "entity_type": "PERSON", + "entity_value": "Lauren Napolitano", + "start_position": 44, + "end_position": 61 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Underwood Group", + "start_position": 27, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Kimberly van den Bogaert", + "start_position": 1, + "end_position": 25 + } + ], + "template_id": 153, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is 01 Ortsstrasse 41 Apt. 985, DOLE, Cyprus 08750", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "01 Ortsstrasse 41 Apt. 985, DOLE, Cyprus 08750", + "start_position": 47, + "end_position": 93 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "I'm in Cuntis, at the conference", + "masked": "I'm in {{city}}, at the conference", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cuntis", + "start_position": 7, + "end_position": 13 + } + ], + "template_id": 179, + "metadata": null + }, + { + "full_text": "In case of my child's account, we need to add Justin Jongman as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Justin Jongman", + "start_position": 46, + "end_position": 60 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "It's like that since 11/10/1967", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "11/10/1967", + "start_position": 21, + "end_position": 31 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "His social security number is 374-15-9928", + "masked": "His social security number is {{ssn}}", + "spans": [ + { + "entity_type": "US_SSN", + "entity_value": "374-15-9928", + "start_position": 30, + "end_position": 41 + } + ], + "template_id": 88, + "metadata": null + }, + { + "full_text": "Sandra is very reliable. You can always depend on him.", + "masked": "{{first_name}} is very reliable. You can always depend on him.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Sandra", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 91, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 4556449812341468", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556449812341468", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 03 Rua D 25 Apt. 208 Santa Luzia Cape Verde", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "03 Rua D 25 Apt. 208 Santa Luzia Cape Verde", + "start_position": 26, + "end_position": 69 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "During the 1990s, Synthicity invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "masked": "During the 1990s, {{organization}} invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Synthicity", + "start_position": 18, + "end_position": 28 + } + ], + "template_id": 123, + "metadata": null + }, + { + "full_text": "what is the limit for card 4532686979246803?", + "masked": "What is the limit for card {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532686979246803", + "start_position": 27, + "end_position": 43 + } + ], + "template_id": 56, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "What's your credit card? 5378818686205764", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5378818686205764", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is Eugene and Via Goffredo Mameli 149", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Eugene and Via Goffredo Mameli 149", + "start_position": 47, + "end_position": 81 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "card number 5339594898113371 is lost, can you please send a new one to 34 Avenida Gomes Freire 1640\nBisegna, AQ 27815? I am in Cankova for a business trip", + "masked": "card number {{credit_card_number}} is lost, can you please send a new one to {{address}}? I am in {{city}} for a business trip", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cankova", + "start_position": 127, + "end_position": 134 + }, + { + "entity_type": "ADDRESS", + "entity_value": "34 Avenida Gomes Freire 1640\nBisegna, AQ 27815", + "start_position": 71, + "end_position": 117 + }, + { + "entity_type": "CREDIT_CARD", + "entity_value": "5339594898113371", + "start_position": 12, + "end_position": 28 + } + ], + "template_id": 30, + "metadata": null + }, + { + "full_text": "The corner of {street_name} and {street_name}", + "masked": "The corner of {street_name} and {street_name}", + "spans": [], + "template_id": 133, + "metadata": null + }, + { + "full_text": "I'd like it to be sent to 99 Keskiortentie 2 Suite 765 LEMLAND Åland Islands", + "masked": "I'd like it to be sent to {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "99 Keskiortentie 2 Suite 765 LEMLAND Åland Islands", + "start_position": 26, + "end_position": 76 + } + ], + "template_id": 71, + "metadata": null + }, + { + "full_text": "A tribute to Samantha Chloupková ג€“ sadly, she wasn't impressed.", + "masked": "A tribute to {{person}} ג€“ sadly, she wasn't impressed.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Samantha Chloupková", + "start_position": 13, + "end_position": 32 + } + ], + "template_id": 103, + "metadata": null + }, + { + "full_text": "What are my options?", + "masked": "What are my options?", + "spans": [], + "template_id": 41, + "metadata": null + }, + { + "full_text": "The title refers to Hochstrasse 96 street in Wenningstedt. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Isayev Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Isayev Street", + "start_position": 205, + "end_position": 218 + }, + { + "entity_type": "LOCATION", + "entity_value": "Wenningstedt", + "start_position": 45, + "end_position": 57 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Hochstrasse 96", + "start_position": 20, + "end_position": 34 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "Xenophon shouted at Jennifer: \"What are you doing here?\"", + "masked": "{{first_name}} shouted at {{first_name}}: \"What are you doing here?\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Jennifer", + "start_position": 20, + "end_position": 28 + }, + { + "entity_type": "PERSON", + "entity_value": "Xenophon", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 125, + "metadata": null + }, + { + "full_text": "The title refers to Höfðagata 41 street in Keflavíkurflugvöllur. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Andreassen Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Andreassen Street", + "start_position": 211, + "end_position": 228 + }, + { + "entity_type": "LOCATION", + "entity_value": "Keflavíkurflugvöllur", + "start_position": 43, + "end_position": 63 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Höfðagata 41", + "start_position": 20, + "end_position": 32 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "As promised, here's Sepi's address:\n\n2418 Robertson Ave Watson Street\n Apt. 150\n Nylstroom\n Malta 98824", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "2418 Robertson Ave Watson Street\n Apt. 150\n Nylstroom\n Malta 98824", + "start_position": 37, + "end_position": 103 + }, + { + "entity_type": "PERSON", + "entity_value": "Sepi", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "03 Via Giberti 75\n Suite 329\n Forno Canavese\n Honduras 79524", + "masked": "{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "79524", + "start_position": 55, + "end_position": 60 + }, + { + "entity_type": "LOCATION", + "entity_value": "Honduras", + "start_position": 46, + "end_position": 54 + }, + { + "entity_type": "LOCATION", + "entity_value": "Forno Canavese", + "start_position": 30, + "end_position": 44 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 329", + "start_position": 19, + "end_position": 28 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Via Giberti 75", + "start_position": 3, + "end_position": 17 + }, + { + "entity_type": "ADDRESS", + "entity_value": "03", + "start_position": 0, + "end_position": 2 + } + ], + "template_id": 132, + "metadata": null + }, + { + "full_text": "Jerry Kastner lives at 90 Árpád fejedelem útja 3., Budapest", + "masked": "{{name}} lives at {{building_number}} {{street_name}}, {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Budapest", + "start_position": 51, + "end_position": 59 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Árpád fejedelem útja 3.", + "start_position": 26, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "90", + "start_position": 23, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Jerry Kastner", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 137, + "metadata": null + }, + { + "full_text": "It's like that since 12/7/1975", + "masked": "It's like that since {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "12/7/1975", + "start_position": 21, + "end_position": 30 + } + ], + "template_id": 79, + "metadata": null + }, + { + "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "masked": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", + "spans": [], + "template_id": 33, + "metadata": null + }, + { + "full_text": "Golden Helix is the brainchild of our 3 founders: Ingvarsdóttir, Mcclain and Ramirez. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "masked": "{{organization}} is the brainchild of our 3 founders: {{last_name}}, {{last_name}} and {{last_name}}. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Ramirez", + "start_position": 77, + "end_position": 84 + }, + { + "entity_type": "PERSON", + "entity_value": "Mcclain", + "start_position": 65, + "end_position": 72 + }, + { + "entity_type": "PERSON", + "entity_value": "Ingvarsdóttir", + "start_position": 50, + "end_position": 63 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Golden Helix", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 120, + "metadata": null + }, + { + "full_text": "anna jeremiassen\n\n18 árpád fejedelem útja 62.\n apt. 139\n mány\n serbia 24072\n(22) 154-300-office\\,001-771-975-4619-fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-771-975-4619", + "start_position": 97, + "end_position": 113 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(22) 154-300", + "start_position": 76, + "end_position": 88 + }, + { + "entity_type": "ADDRESS", + "entity_value": "24072", + "start_position": 70, + "end_position": 75 + }, + { + "entity_type": "LOCATION", + "entity_value": "serbia", + "start_position": 63, + "end_position": 69 + }, + { + "entity_type": "LOCATION", + "entity_value": "mány", + "start_position": 57, + "end_position": 61 + }, + { + "entity_type": "ADDRESS", + "entity_value": "apt. 139", + "start_position": 47, + "end_position": 55 + }, + { + "entity_type": "ADDRESS", + "entity_value": "árpád fejedelem útja 62.", + "start_position": 21, + "end_position": 45 + }, + { + "entity_type": "ADDRESS", + "entity_value": "18", + "start_position": 18, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "anna jeremiassen", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "My zip code is 29812", + "masked": "My zip code is {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "29812", + "start_position": 15, + "end_position": 20 + } + ], + "template_id": 161, + "metadata": null + }, + { + "full_text": "We moved here from Črni Vrh nad Idrijo", + "masked": "We moved here from {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Črni Vrh nad Idrijo", + "start_position": 19, + "end_position": 38 + } + ], + "template_id": 141, + "metadata": null + }, + { + "full_text": "Mr. Davis is a 50 year old man who grew up in Kistarcsa.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kistarcsa", + "start_position": 46, + "end_position": 55 + }, + { + "entity_type": "PERSON", + "entity_value": "Davis", + "start_position": 4, + "end_position": 9 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "Please tell me your date of birth. It's 10/15/1986", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "10/15/1986", + "start_position": 40, + "end_position": 50 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "I'd like to call a taxi to 28 Håndværkervej 35\nOeschenbach, nan 12282. Please call me when you're here.", + "masked": "I'd like to call a taxi to {{address}}. Please call me when you're here.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "28 Håndværkervej 35\nOeschenbach, nan 12282", + "start_position": 27, + "end_position": 69 + } + ], + "template_id": 64, + "metadata": null + }, + { + "full_text": "Steven Ryzaev\n\n75 14 Rue Aghlab\n Suite 601\n Cite Bain Maure Ben Azouz\n\n Panama 39246", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n\n {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "39246", + "start_position": 79, + "end_position": 84 + }, + { + "entity_type": "LOCATION", + "entity_value": "Panama", + "start_position": 72, + "end_position": 78 + }, + { + "entity_type": "LOCATION", + "entity_value": "Cite Bain Maure Ben Azouz", + "start_position": 44, + "end_position": 69 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 601", + "start_position": 33, + "end_position": 42 + }, + { + "entity_type": "ADDRESS", + "entity_value": "14 Rue Aghlab", + "start_position": 18, + "end_position": 31 + }, + { + "entity_type": "ADDRESS", + "entity_value": "75", + "start_position": 15, + "end_position": 17 + }, + { + "entity_type": "PERSON", + "entity_value": "Steven Ryzaev", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 130, + "metadata": null + }, + { + "full_text": "My name is Maslin", + "masked": "My name is {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Maslin", + "start_position": 11, + "end_position": 17 + } + ], + "template_id": 58, + "metadata": null + }, + { + "full_text": "Ashlee Yoshimura, the Time and attendance clerk, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "masked": "{{name}}, the {{job}}, said: \\\"I\\'m glad to hear that this has been withdrawn ג€“ quite why they thought this would go down well is beyond me.\\\"", + "spans": [ + { + "entity_type": "TITLE", + "entity_value": "Time and attendance clerk", + "start_position": 22, + "end_position": 47 + }, + { + "entity_type": "PERSON", + "entity_value": "Ashlee Yoshimura", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 180, + "metadata": null + }, + { + "full_text": "My friend lives in COOMINGLAH FOREST", + "masked": "My friend lives in {{city}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "COOMINGLAH FOREST", + "start_position": 19, + "end_position": 36 + } + ], + "template_id": 135, + "metadata": null + }, + { + "full_text": "Will my account stay active? It's under my partner's name Lisa Leclair", + "masked": "Will my account stay active? It's under my partner's name {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Lisa Leclair", + "start_position": 58, + "end_position": 70 + } + ], + "template_id": 40, + "metadata": null + }, + { + "full_text": "The Davis, Reynolds and Williamson office is at 56 138 Rue de Libya\n Suite 556\n El Louza\n Belgium", + "masked": "The {{organization}} office is at {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "56 138 Rue de Libya\n Suite 556\n El Louza\n Belgium", + "start_position": 48, + "end_position": 97 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Davis, Reynolds and Williamson", + "start_position": 4, + "end_position": 34 + } + ], + "template_id": 148, + "metadata": null + }, + { + "full_text": "Trevor Usamov listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Samantha Persson ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Samantha Persson", + "start_position": 169, + "end_position": 185 + }, + { + "entity_type": "PERSON", + "entity_value": "Trevor Usamov", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "Kateřina, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kateřina", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Tony Shervashidze's Cautionary Tales. Is there a better example of unbridled creativity than early Loggia?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Loggia", + "start_position": 223, + "end_position": 229 + }, + { + "entity_type": "PERSON", + "entity_value": "Tony Shervashidze", + "start_position": 124, + "end_position": 141 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "My credit card 4929149013148403 has been lost, Can I request you to block it.", + "masked": "My credit card {{credit_card_number}} has been lost, Can I request you to block it.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929149013148403", + "start_position": 15, + "end_position": 31 + } + ], + "template_id": 1, + "metadata": null + }, + { + "full_text": "The title refers to Bem rakpart 79. street in Vitka. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Barbosa Street Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "masked": "The title refers to {{street_name}} street in {{city}}. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on {{street_name}} Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Barbosa Street", + "start_position": 199, + "end_position": 213 + }, + { + "entity_type": "LOCATION", + "entity_value": "Vitka", + "start_position": 46, + "end_position": 51 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Bem rakpart 79.", + "start_position": 20, + "end_position": 35 + } + ], + "template_id": 110, + "metadata": null + }, + { + "full_text": "As promised, here's Soib's address:\n\n62 Itätuulenkuja 89\nHorní Slavkov\n, KA\n Luxembourg 72363", + "masked": "As promised, here's {{first_name}}'s address:\n\n{{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "62 Itätuulenkuja 89\nHorní Slavkov\n, KA\n Luxembourg 72363", + "start_position": 37, + "end_position": 93 + }, + { + "entity_type": "PERSON", + "entity_value": "Soib", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 152, + "metadata": null + }, + { + "full_text": "Please send my portfolio to this email MijailAdomoCasares@fleckens.hu", + "masked": "Please send my portfolio to this email {{email}}", + "spans": [ + { + "entity_type": "EMAIL_ADDRESS", + "entity_value": "MijailAdomoCasares@fleckens.hu", + "start_position": 39, + "end_position": 69 + } + ], + "template_id": 51, + "metadata": null + }, + { + "full_text": "Please charge my credit card. Number is 5546071504003790", + "masked": "Please charge my credit card. Number is {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5546071504003790", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 65, + "metadata": null + }, + { + "full_text": "This song by ex-Zombie Itou is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "masked": "This song by ex-Zombie {{last_name}} is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Itou", + "start_position": 23, + "end_position": 27 + } + ], + "template_id": 109, + "metadata": null + }, + { + "full_text": "Hello I moved, please update my new address is Floridusgasse 89 Oomen Street\n Suite 096\n WIEN\n Guatemala 37791", + "masked": "Hello I moved, please update my new address is {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Floridusgasse 89 Oomen Street\n Suite 096\n WIEN\n Guatemala 37791", + "start_position": 47, + "end_position": 110 + } + ], + "template_id": 49, + "metadata": null + }, + { + "full_text": "Johannes, can I please speak to your boss?", + "masked": "{{first_name}}, can I please speak to your boss?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Johannes", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 38, + "metadata": null + }, + { + "full_text": "The letter arrived at Archie and Estrela 57 last night.", + "masked": "The letter arrived at {{address}} last night.", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Archie and Estrela 57", + "start_position": 22, + "end_position": 43 + } + ], + "template_id": 177, + "metadata": null + }, + { + "full_text": "James Brandt\n\n09 Genterstrasse 49\n Apt. 339\n Kiel\n East Timor 68748\n0431 35 06 90-Office\\,+1-448-414-3381x060-Fax", + "masked": "{{person}}\n\n{{building_number}} {{street_name}}\n {{secondary_address}}\n {{city}}\n {{country}} {{postcode}}\n{{phone_number}}-Office\\,{{phone_number}}-Fax", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-448-414-3381x060", + "start_position": 90, + "end_position": 109 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0431 35 06 90", + "start_position": 68, + "end_position": 81 + }, + { + "entity_type": "ADDRESS", + "entity_value": "68748", + "start_position": 62, + "end_position": 67 + }, + { + "entity_type": "LOCATION", + "entity_value": "East Timor", + "start_position": 51, + "end_position": 61 + }, + { + "entity_type": "LOCATION", + "entity_value": "Kiel", + "start_position": 45, + "end_position": 49 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 339", + "start_position": 35, + "end_position": 43 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Genterstrasse 49", + "start_position": 17, + "end_position": 33 + }, + { + "entity_type": "ADDRESS", + "entity_value": "09", + "start_position": 14, + "end_position": 16 + }, + { + "entity_type": "PERSON", + "entity_value": "James Brandt", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 143, + "metadata": null + }, + { + "full_text": "What's your credit card? 4929243856183088", + "masked": "What's your credit card? {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929243856183088", + "start_position": 25, + "end_position": 41 + } + ], + "template_id": 67, + "metadata": null + }, + { + "full_text": "my driver's license number is a56319335", + "masked": "My driver's license number is {{us_driver_license}}", + "spans": [ + { + "entity_type": "US_DRIVER_LICENSE", + "entity_value": "a56319335", + "start_position": 30, + "end_position": 39 + } + ], + "template_id": 128, + "metadata": null + }, + { + "full_text": "please tell me your date of birth. it's 2/4/1958", + "masked": "Please tell me your date of birth. It's {{date_of_birth}}", + "spans": [ + { + "entity_type": "DATE_TIME", + "entity_value": "2/4/1958", + "start_position": 40, + "end_position": 48 + } + ], + "template_id": 61, + "metadata": null + }, + { + "full_text": "??? Carrie Castro\n??? Smartasset\n??? 02 53 place Stanislas\n??? Suite 942\n??? NANTES\n??? Dominican Republic 08354", + "masked": "??? {{name}}\n??? {{organization}}\n??? {{building_number}} {{street_name}}\n??? {{secondary_address}}\n??? {{city}}\n??? {{country}} {{postcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "08354", + "start_position": 107, + "end_position": 112 + }, + { + "entity_type": "LOCATION", + "entity_value": "Dominican Republic", + "start_position": 88, + "end_position": 106 + }, + { + "entity_type": "LOCATION", + "entity_value": "NANTES", + "start_position": 77, + "end_position": 83 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Suite 942", + "start_position": 63, + "end_position": 72 + }, + { + "entity_type": "ADDRESS", + "entity_value": "53 place Stanislas", + "start_position": 40, + "end_position": 58 + }, + { + "entity_type": "ADDRESS", + "entity_value": "02", + "start_position": 37, + "end_position": 39 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Smartasset", + "start_position": 22, + "end_position": 32 + }, + { + "entity_type": "PERSON", + "entity_value": "Carrie Castro", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 154, + "metadata": null + }, + { + "full_text": "Wesley Geisler listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Rachel Holloway ג€“ go figure)", + "masked": "{{name_male}} listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by {{person}} ג€“ go figure)", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Rachel Holloway", + "start_position": 170, + "end_position": 185 + }, + { + "entity_type": "PERSON", + "entity_value": "Wesley Geisler", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 106, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + }, + { + "full_text": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "masked": "Capitalized words like Wisdom and Discipline are often mistaken with names.", + "spans": [], + "template_id": 176, + "metadata": null + }, + { + "full_text": "Mr. Reese is a 50 year old man who grew up in MJÄLLOM.", + "masked": "{{prefix_male}} {{last_name_male}} is a 50 year old man who grew up in {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "MJÄLLOM", + "start_position": 46, + "end_position": 53 + }, + { + "entity_type": "PERSON", + "entity_value": "Reese", + "start_position": 4, + "end_position": 9 + }, + { + "entity_type": "PERSON", + "entity_value": "Mr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 171, + "metadata": null + }, + { + "full_text": "She was born on 10/25/1990. Her maiden name is Inarkaevich", + "masked": "She was born on {{date_of_birth}}. Her maiden name is {{last_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Inarkaevich", + "start_position": 47, + "end_position": 58 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "10/25/1990", + "start_position": 16, + "end_position": 26 + } + ], + "template_id": 76, + "metadata": null + }, + { + "full_text": "Dr. Katie Giles Apt. 276 27 Sorlaskeid 32\nHafnafjörður nan 60644", + "masked": "{{prefix_female}} {{name_female}} {{secondary_address}} {{building_number}} {{street_name}}\n{{city}} {{state_abbr}} {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "60644", + "start_position": 59, + "end_position": 64 + }, + { + "entity_type": "ADDRESS", + "entity_value": "nan", + "start_position": 55, + "end_position": 58 + }, + { + "entity_type": "LOCATION", + "entity_value": "Hafnafjörður", + "start_position": 42, + "end_position": 54 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Sorlaskeid 32", + "start_position": 28, + "end_position": 41 + }, + { + "entity_type": "ADDRESS", + "entity_value": "27", + "start_position": 25, + "end_position": 27 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Apt. 276", + "start_position": 16, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Katie Giles", + "start_position": 4, + "end_position": 15 + }, + { + "entity_type": "PREFIX", + "entity_value": "Dr.", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 131, + "metadata": null + }, + { + "full_text": "Are there any charges applied to withdraw money from ATM with the card 4556669815169836", + "masked": "Are there any charges applied to withdraw money from ATM with the card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556669815169836", + "start_position": 71, + "end_position": 87 + } + ], + "template_id": 6, + "metadata": null + }, + { + "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in USNS Ujváry\nFPO AP 24796", + "masked": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNS Ujváry\nFPO AP 24796", + "start_position": 132, + "end_position": 156 + } + ], + "template_id": 74, + "metadata": null + }, + { + "full_text": "Sometimes people call me Natalija", + "masked": "Sometimes people call me {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Natalija", + "start_position": 25, + "end_position": 33 + } + ], + "template_id": 77, + "metadata": null + }, + { + "full_text": "My card 4485149616930682 is expiring this month. Please let me know process to it's extend validity.", + "masked": "My card {{credit_card_number}} is expiring this month. Please let me know process to it's extend validity.", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485149616930682", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 11, + "metadata": null + }, + { + "full_text": "please update the billing address with 71 estrada nacional 105 apt. 335 casal das cheiras le for this card: 4539768304967106", + "masked": "Please update the billing address with {{address}} for this card: {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539768304967106", + "start_position": 108, + "end_position": 124 + }, + { + "entity_type": "ADDRESS", + "entity_value": "71 estrada nacional 105 apt. 335 casal das cheiras le", + "start_position": 39, + "end_position": 92 + } + ], + "template_id": 8, + "metadata": null + }, + { + "full_text": "I'm originally from Fiji", + "masked": "I'm originally from {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Fiji", + "start_position": 20, + "end_position": 24 + } + ], + "template_id": 21, + "metadata": null + }, + { + "full_text": "Sisko is from Workhands", + "masked": "{{first_name}} is from {{organization}}", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Workhands", + "start_position": 14, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Sisko", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 86, + "metadata": null + }, + { + "full_text": "She named him Kevin", + "masked": "She named him {{first_name_male}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kevin", + "start_position": 14, + "end_position": 19 + } + ], + "template_id": 168, + "metadata": null + }, + { + "full_text": "Date: 2010-03-10 19:00:35\nName: Emily Božić\nPhone: 28-81-33-70", + "masked": "Date: {{date_time}}\nName: {{name}}\nPhone: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "28-81-33-70", + "start_position": 51, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Emily Božić", + "start_position": 32, + "end_position": 43 + }, + { + "entity_type": "DATE_TIME", + "entity_value": "2010-03-10 19:00:35", + "start_position": 6, + "end_position": 25 + } + ], + "template_id": 172, + "metadata": null + }, + { + "full_text": "3... 2... 1... liftoff!", + "masked": "3... 2... 1... liftoff!", + "spans": [], + "template_id": 166, + "metadata": null + }, + { + "full_text": "in case of my child's account, we need to add christine fiorentino as guardian", + "masked": "In case of my child's account, we need to add {{person}} as guardian", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "christine fiorentino", + "start_position": 46, + "end_position": 66 + } + ], + "template_id": 4, + "metadata": null + }, + { + "full_text": "Celebrating its 10th year in GRADISCH, Archimedes Inc is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "masked": "Celebrating its 10th year in {{city}}, {{organization}} is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Archimedes Inc", + "start_position": 39, + "end_position": 53 + }, + { + "entity_type": "LOCATION", + "entity_value": "GRADISCH", + "start_position": 29, + "end_position": 37 + } + ], + "template_id": 119, + "metadata": null + }, + { + "full_text": "what's your name? mark pinto", + "masked": "What's your name? {{person}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "mark pinto", + "start_position": 18, + "end_position": 28 + } + ], + "template_id": 68, + "metadata": null + }, + { + "full_text": "\\\"i\\'m glad to hear that chad is moving in that direction,\\\" says péter.", + "masked": "\\\"I\\'m glad to hear that {{country}} is moving in that direction,\\\" says {{last_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "péter", + "start_position": 66, + "end_position": 71 + }, + { + "entity_type": "LOCATION", + "entity_value": "chad", + "start_position": 25, + "end_position": 29 + } + ], + "template_id": 181, + "metadata": null + }, + { + "full_text": "They had 6: Geraldino, Steven, Sarah, Brandy, Joanna and Robin.", + "masked": "They had 6: {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}}, {{first_name}} and {{first_name}}.", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Robin", + "start_position": 57, + "end_position": 62 + }, + { + "entity_type": "PERSON", + "entity_value": "Joanna", + "start_position": 46, + "end_position": 52 + }, + { + "entity_type": "PERSON", + "entity_value": "Brandy", + "start_position": 38, + "end_position": 44 + }, + { + "entity_type": "PERSON", + "entity_value": "Sarah", + "start_position": 31, + "end_position": 36 + }, + { + "entity_type": "PERSON", + "entity_value": "Steven", + "start_position": 23, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Geraldino", + "start_position": 12, + "end_position": 21 + } + ], + "template_id": 159, + "metadata": null + }, + { + "full_text": "when they weren't singing about hobbits, satanic felines and interstellar journeys, they were singing about the verses from antonio kohler md's cautionary tales. is there a better example of unbridled creativity than early michek?", + "masked": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from {{person}}'s Cautionary Tales. Is there a better example of unbridled creativity than early {{last_name}}?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "michek", + "start_position": 223, + "end_position": 229 + }, + { + "entity_type": "PERSON", + "entity_value": "antonio kohler md", + "start_position": 124, + "end_position": 141 + } + ], + "template_id": 104, + "metadata": null + }, + { + "full_text": "They're not answering at 070 4493 5104", + "masked": "They're not answering at {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "070 4493 5104", + "start_position": 25, + "end_position": 38 + } + ], + "template_id": 164, + "metadata": null + }, + { + "full_text": "i'm so jealous! said petra to michael", + "masked": "I'm so jealous! said {{first_name}} to {{first_name}}", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "michael", + "start_position": 30, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "petra", + "start_position": 21, + "end_position": 26 + } + ], + "template_id": 96, + "metadata": null + }, + { + "full_text": "Blink-182 pay tribute here to the Gabon. Producer Brian Geisler explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "masked": "Blink-182 pay tribute here to the {{country}}. Producer {{person}} explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Brian Geisler", + "start_position": 50, + "end_position": 63 + }, + { + "entity_type": "LOCATION", + "entity_value": "Gabon", + "start_position": 34, + "end_position": 39 + } + ], + "template_id": 111, + "metadata": null + }, + { + "full_text": "Sue spent a year at Palantir Technologies as the assistant to Mary Eriksen, and the following year at Spacecurve in Torroella de Montgrí, which later became Wolfram Research in 1965.", + "masked": "{{first_name}} spent a year at {{organization}} as the assistant to {{person}}, and the following year at {{organization}} in {{city}}, which later became {{organization}} in 1965.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Wolfram Research", + "start_position": 157, + "end_position": 173 + }, + { + "entity_type": "LOCATION", + "entity_value": "Torroella de Montgrí", + "start_position": 116, + "end_position": 136 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Spacecurve", + "start_position": 102, + "end_position": 112 + }, + { + "entity_type": "PERSON", + "entity_value": "Mary Eriksen", + "start_position": 62, + "end_position": 74 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Palantir Technologies", + "start_position": 20, + "end_position": 41 + }, + { + "entity_type": "PERSON", + "entity_value": "Sue", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 126, + "metadata": null + }, + { + "full_text": "Could I change the payment due date of my credit card?", + "masked": "Could I change the payment due date of my credit card?", + "spans": [], + "template_id": 16, + "metadata": null + } +] \ No newline at end of file diff --git a/tests/data/generated_large.txt b/tests/data/generated_large.txt deleted file mode 100644 index 68759ef..0000000 --- a/tests/data/generated_large.txt +++ /dev/null @@ -1,74124 +0,0 @@ -[ - { - "full_text": "My name is Erik Baader but everyone calls me Erik", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Erik Baader", - "start_position": 11, - "end_position": 22 - }, - { - "entity_type": "PERSON", - "entity_value": "Erik", - "start_position": 45, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Erik", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Erik", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Baader", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Baader", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 23, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "everyone", - "idx": 27, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "everyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "calls", - "idx": 36, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Erik", - "idx": 45, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "Erik", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Slovakia", - "Lowercase": false, - "Template#": 58 - } - }, - { - "full_text": "Kotoya Negishi listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Frank Strauser – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Kotoya Negishi", - "start_position": 0, - "end_position": 14 - }, - { - "entity_type": "PERSON", - "entity_value": "Frank Strauser", - "start_position": 170, - "end_position": 184 - } - ], - "tokens": [ - { - "text": "Kotoya", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Kotoya", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Negishi", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Negishi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 15, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 22, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 26, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 33, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 57, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 64, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 68, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 72, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 76, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 82, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 85, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 95, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 103, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 104, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 106, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 108, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 109, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 114, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 118, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 121, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 125, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 128, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 129, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 131, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 135, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 138, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 153, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 159, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 165, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 167, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Frank", - "idx": 170, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Frank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Strauser", - "idx": 176, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Strauser", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 185, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 187, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 189, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 192, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 198, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "France", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "Could you please email me the statement for laste month , my credit card number is 5467800309398046?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5467800309398046", - "start_position": 83, - "end_position": 99 - } - ], - "tokens": [ - { - "text": "Could", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 10, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 17, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 26, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "laste", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "laste", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 50, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 56, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 58, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 61, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 73, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 80, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5467800309398046", - "idx": 83, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "5467800309398046", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "California", - "Lowercase": false, - "Template#": 25 - } - }, - { - "full_text": "Unlike the Souza novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Souza", - "start_position": 11, - "end_position": 16 - } - ], - "tokens": [ - { - "text": "Unlike", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "unlike", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Souza", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Souza", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "novel", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "novel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 22, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 24, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 26, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 29, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 33, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "necrophilia", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "necrophilia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 50, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 52, - "tag_": "WP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 60, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 63, - "tag_": "IN", - "pos_": "ADP", - "dep_": "acomp", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 68, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 70, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "suppose", - "idx": 72, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 80, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "anyone", - "idx": 83, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "anyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 89, - "tag_": "POS", - "pos_": "PART", - "dep_": "auxpass", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "guess", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "guess", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 97, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brilliant", - "idx": 101, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "brilliant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "piece", - "idx": 111, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "piece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 117, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "baroque", - "idx": 120, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "baroque", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pop", - "idx": 128, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "pop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 131, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 96 - } - }, - { - "full_text": "Celebrating its 10th year in Villa de Ves, Trak Auto is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Villa de Ves", - "start_position": 29, - "end_position": 41 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Trak Auto", - "start_position": 43, - "end_position": 52 - } - ], - "tokens": [ - { - "text": "Celebrating", - "idx": 0, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "celebrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10th", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "10th", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Villa", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nmod", - "lemma_": "Villa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "de", - "idx": 35, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nmod", - "lemma_": "de", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ves", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ves", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 41, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Trak", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Trak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Auto", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Auto", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 53, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 56, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "501(c)3", - "idx": 58, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "501(c)3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 66, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invites", - "idx": 71, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "invite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 79, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 91, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "around", - "idx": 96, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 113, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Texas", - "idx": 116, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Texas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 122, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "share", - "idx": 125, - "tag_": "VB", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 131, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "universal", - "idx": 135, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "universal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "language", - "idx": 145, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "language", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 154, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 157, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 163, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "collaborations", - "idx": 166, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "collaboration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designed", - "idx": 181, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 190, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bridge", - "idx": 193, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "bridge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultures", - "idx": 200, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "culture", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 208, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "build", - "idx": 210, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "build", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "friendships", - "idx": 216, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "friendship", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 228, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultivate", - "idx": 232, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "cultivate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peace", - "idx": 242, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "peace", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 247, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Italy", - "Lowercase": false, - "Template#": 116 - } - }, - { - "full_text": "Maybe it's under Jonathan Lauritsen", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Jonathan Lauritsen", - "start_position": 17, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "Maybe", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "maybe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 11, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jonathan", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Jonathan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lauritsen", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Lauritsen", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Botswana", - "Lowercase": false, - "Template#": 75 - } - }, - { - "full_text": "from the film american graffiti (also features lincoln wormald. what's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "lincoln wormald", - "start_position": 47, - "end_position": 62 - } - ], - "tokens": [ - { - "text": "from", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "american", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lincoln", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "lincoln", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "wormald", - "idx": 55, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "wormald", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 62, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 64, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 68, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 71, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 75, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 78, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 82, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Australian", - "Country": "Monaco", - "Lowercase": true, - "Template#": 104 - } - }, - { - "full_text": "How do I check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Israel", - "Lowercase": false, - "Template#": 15 - } - }, - { - "full_text": "Here's my SSN: ", - "masked": null, - "spans": [ - { - "entity_type": "US_SSN", - "entity_value": "", - "start_position": 15, - "end_position": 15 - } - ], - "tokens": [ - { - "text": "Here", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SSN", - "idx": 10, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "ssn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 13, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Saudi Arabia", - "Lowercase": false, - "Template#": 86 - } - }, - { - "full_text": "What's your name? Longin Symanski", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Longin Symanski", - "start_position": 18, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 16, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Longin", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Longin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Symanski", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Symanski", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Peru", - "Lowercase": false, - "Template#": 66 - } - }, - { - "full_text": "Minik Jeremiassen listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Marisa Bisliev – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Minik Jeremiassen", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "PERSON", - "entity_value": "Marisa Bisliev", - "start_position": 173, - "end_position": 187 - } - ], - "tokens": [ - { - "text": "Minik", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Minik", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jeremiassen", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jeremiassen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 18, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 25, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 29, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 33, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 36, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 67, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 71, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 75, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 79, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 85, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 88, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 98, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 103, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 106, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 107, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 109, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 111, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 112, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 117, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 121, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 124, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 128, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 131, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 132, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 134, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 138, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 141, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 143, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 156, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 162, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 168, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 170, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Marisa", - "idx": 173, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Marisa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bisliev", - "idx": 180, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Bisliev", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 188, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 190, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 192, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 195, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 201, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Ireland", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "Avtorhan, can I please speak to your boss?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Avtorhan", - "start_position": 0, - "end_position": 8 - } - ], - "tokens": [ - { - "text": "Avtorhan", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Avtorhan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 8, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 10, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 14, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 16, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 23, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 29, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 32, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boss", - "idx": 37, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boss", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 41, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Portugal", - "Lowercase": false, - "Template#": 37 - } - }, - { - "full_text": "have you heard Line Henriksen speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Line Henriksen", - "start_position": 15, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Line", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Line", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Henriksen", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Henriksen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 30, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 36, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Qatar", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "george, can i please speak to your boss?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "george", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "george", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "george", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 6, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 8, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 14, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 30, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boss", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boss", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Australian", - "Country": "Djibouti", - "Lowercase": true, - "Template#": 37 - } - }, - { - "full_text": "The address of Coon Chicken Inn is ul. Zuchów 65, Dąbrowa Górnicza 41-303", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Coon Chicken Inn", - "start_position": 15, - "end_position": 31 - }, - { - "entity_type": "LOCATION", - "entity_value": "ul. Zuchów 65, Dąbrowa Górnicza 41-303", - "start_position": 35, - "end_position": 73 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Coon", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Coon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chicken", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Chicken", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Inn", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Inn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 32, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ul", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "ul", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 37, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zuchów", - "idx": 39, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Zuchów", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "65", - "idx": 46, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "65", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 48, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dąbrowa", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Dąbrowa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Górnicza", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Górnicza", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "41", - "idx": 67, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "41", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 69, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "303", - "idx": 70, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "303", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Middle East", - "Lowercase": false, - "Template#": 84 - } - }, - { - "full_text": "have you heard Daniela Jager speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Daniela Jager", - "start_position": 15, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Daniela", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Daniela", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jager", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Sri Lanka", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "have you heard Anđa Tomić speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Anđa Tomić", - "start_position": 15, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Anđa", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Anđa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tomić", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Tomić", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 26, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 32, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Croatian", - "Country": "Maldives", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "My card 4916843781747413 is expiring this month. Please let me know process to it's extend validity.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4916843781747413", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4916843781747413", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4916843781747413", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expiring", - "idx": 28, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 37, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "let", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "let", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "know", - "idx": 63, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "process", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "process", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 79, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 81, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "extend", - "idx": 84, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "extend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validity", - "idx": 91, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "validity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Trinidad And Tobago", - "Lowercase": false, - "Template#": 11 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Mozambique. Producer Devin Berg explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Mozambique", - "start_position": 34, - "end_position": 44 - }, - { - "entity_type": "PERSON", - "entity_value": "Devin Berg", - "start_position": 55, - "end_position": 65 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mozambique", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Mozambique", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Devin", - "idx": 55, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Devin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Berg", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Berg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 66, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 79, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 84, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 86, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 88, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 89, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 92, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 96, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 102, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 106, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 111, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 114, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 122, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 124, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 129, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 135, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 139, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 144, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 146, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 152, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 155, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 160, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 164, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 168, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 170, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 173, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 176, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 178, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 181, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 185, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 190, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 200, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 206, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 209, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 213, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 218, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 220, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 225, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 230, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 234, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 237, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 244, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 251, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 254, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 258, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 264, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 267, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 271, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 274, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 279, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 285, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 290, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 294, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 300, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 303, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 307, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 309, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 317, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 326, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 330, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 332, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 336, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 342, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 347, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 348, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Mozambique", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "Aron is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Aron", - "start_position": 0, - "end_position": 4 - } - ], - "tokens": [ - { - "text": "Aron", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Aron", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 8, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 10, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 15, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 27, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 33, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 35, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 40, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 47, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 52, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Armenia", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "Sometimes people call me Mayra", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mayra", - "start_position": 25, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "Sometimes", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sometimes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "people", - "idx": 10, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "people", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 17, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mayra", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "Mayra", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Lithuania", - "Lowercase": false, - "Template#": 74 - } - }, - { - "full_text": "Please send my portfolio to this email SvenZimmer@fleckens.hu", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "SvenZimmer@fleckens.hu", - "start_position": 39, - "end_position": 61 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "portfolio", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "portfolio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 28, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SvenZimmer@fleckens.hu", - "idx": 39, - "tag_": "ADD", - "pos_": "X", - "dep_": "appos", - "lemma_": "svenzimmer@fleckens.hu", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Iceland", - "Lowercase": false, - "Template#": 49 - } - }, - { - "full_text": "How do I change my address to 23 Settlement Road, WINNINDOO 3858 for post mail?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "23 Settlement Road, WINNINDOO 3858", - "start_position": 30, - "end_position": 64 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 16, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "23", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "23", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Settlement", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Settlement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Road", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Road", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 48, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "WINNINDOO", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "WINNINDOO", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3858", - "idx": 60, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3858", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 65, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "post", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "post", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mail", - "idx": 74, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "mail", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Croatian", - "Country": "Tunisia", - "Lowercase": false, - "Template#": 27 - } - }, - { - "full_text": "What are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Macedonia", - "Lowercase": false, - "Template#": 40 - } - }, - { - "full_text": "what is procedure to redeem points won on credit card 4929366514784904 transactions ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929366514784904", - "start_position": 54, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "what", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "procedure", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "procedure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 18, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "redeem", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "redeem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 28, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "won", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "win", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929366514784904", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4929366514784904", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transactions", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Benin", - "Lowercase": true, - "Template#": 13 - } - }, - { - "full_text": "From the film American graffiti (also features Ilya Bodrov. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ilya Bodrov", - "start_position": 47, - "end_position": 58 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ilya", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ilya", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bodrov", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Bodrov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 58, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 60, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 64, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 67, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 71, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 74, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Greece", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "Zoolander is a 2001 American action-comedy film directed by Carly Jones and starring Jones", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Carly Jones", - "start_position": 60, - "end_position": 71 - }, - { - "entity_type": "PERSON", - "entity_value": "Jones", - "start_position": 85, - "end_position": 90 - } - ], - "tokens": [ - { - "text": "Zoolander", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Zoolander", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 10, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 13, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2001", - "idx": 15, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2001", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "action", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "action", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 35, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "comedy", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "comedy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "directed", - "idx": 48, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "direct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carly", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Carly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jones", - "idx": 66, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Jones", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 72, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "starring", - "idx": 76, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "star", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jones", - "idx": 85, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Jones", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Scottish", - "Country": "Bolivia", - "Lowercase": false, - "Template#": 119 - } - }, - { - "full_text": "have you heard Nusa Márkus speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Nusa Márkus", - "start_position": 15, - "end_position": 26 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Nusa", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Nusa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Márkus", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Márkus", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 27, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Guinea", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "What are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Mali", - "Lowercase": false, - "Template#": 40 - } - }, - { - "full_text": "It's like that since 1/27/1952", - "masked": null, - "spans": [ - { - "entity_type": "BIRTHDAY", - "entity_value": "1/27/1952", - "start_position": 21, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "It", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 2, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 5, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "pobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "since", - "idx": 15, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "since", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1/27/1952", - "idx": 21, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1/27/1952", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-BIRTHDAY" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Suriname", - "Lowercase": false, - "Template#": 76 - } - }, - { - "full_text": "So where are we meeting? There's this nice new Thai place downtown. Cool, what's the address? Oh do they serve vegan stuff? It's in P.O. Box 242, Kangerlussuaq 3910", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "P.O. Box 242, Kangerlussuaq 3910", - "start_position": 132, - "end_position": 164 - } - ], - "tokens": [ - { - "text": "So", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 3, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 9, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 13, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "meeting", - "idx": 16, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "meet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 23, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "There", - "idx": 25, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 30, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 33, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nice", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "nice", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 43, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Thai", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Thai", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 52, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "downtown", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "downtown", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 66, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cool", - "idx": 68, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "cool", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 72, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 74, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 78, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 81, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 92, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Oh", - "idx": 94, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "oh", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 97, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 100, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serve", - "idx": 105, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "vegan", - "idx": 111, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "vegan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stuff", - "idx": 117, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "stuff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 122, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 124, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 126, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 129, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "P.O.", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "P.O.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Box", - "idx": 137, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Box", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "242", - "idx": 141, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "242", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 144, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kangerlussuaq", - "idx": 146, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Kangerlussuaq", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3910", - "idx": 160, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3910", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Usa", - "Lowercase": false, - "Template#": 71 - } - }, - { - "full_text": "I'm so jealous! said Donát to Søren", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Donát", - "start_position": 21, - "end_position": 26 - }, - { - "entity_type": "PERSON", - "entity_value": "Søren", - "start_position": 30, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 4, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jealous", - "idx": 7, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "jealous", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 14, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 16, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Donát", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Donát", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Søren", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Søren", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Greenland", - "Country": "Singapore", - "Lowercase": false, - "Template#": 93 - } - }, - { - "full_text": "Maybe it's under Angus Hardacre", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Angus Hardacre", - "start_position": 17, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "Maybe", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "maybe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 11, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Angus", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Angus", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hardacre", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Hardacre", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Australian", - "Country": "Andorra", - "Lowercase": false, - "Template#": 75 - } - }, - { - "full_text": "How do I change the address linked to my credit card to Þverbraut 71, Blönduós 541?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Þverbraut 71, Blönduós 541", - "start_position": 56, - "end_position": 82 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "linked", - "idx": 28, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "link", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 38, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 48, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 53, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Þverbraut", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Þverbraut", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "71", - "idx": 66, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "71", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 68, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Blönduós", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Blönduós", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "541", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "541", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 82, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Republic Of Ireland", - "Lowercase": false, - "Template#": 19 - } - }, - { - "full_text": "How can I request a new credit card pin ?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pin", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "North Korea", - "Lowercase": false, - "Template#": 17 - } - }, - { - "full_text": "I want to increase limit on my card # 5509339531094917 for certain duration of time. is it possible?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5509339531094917", - "start_position": 38, - "end_position": 54 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "increase", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "increase", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 28, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 36, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5509339531094917", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "5509339531094917", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 55, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "certain", - "idx": 59, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "certain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "duration", - "idx": 67, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "duration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "time", - "idx": 79, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "time", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 83, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 85, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 88, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "possible", - "idx": 91, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "possible", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Costa Rica", - "Lowercase": false, - "Template#": 0 - } - }, - { - "full_text": "I'd like it to be sent to Grundingen 6, OSLO 0250", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Grundingen 6, OSLO 0250", - "start_position": 26, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Grundingen", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Grundingen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "6", - "idx": 37, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "6", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "OSLO", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "OSLO", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "0250", - "idx": 45, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "0250", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Singapore", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "I'd like it to be sent to R Sardinha 65, Várzea 5040-033", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "R Sardinha 65, Várzea 5040-033", - "start_position": 26, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "R", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "R", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sardinha", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Sardinha", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "65", - "idx": 37, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "65", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Várzea", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Várzea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5040", - "idx": 48, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5040", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 52, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "033", - "idx": 53, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "033", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Serbia", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "sometimes people call me sofie", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "sofie", - "start_position": 25, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "sometimes", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sometimes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "people", - "idx": 10, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "people", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 17, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sofie", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "sofie", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Australia", - "Lowercase": true, - "Template#": 74 - } - }, - { - "full_text": "The true gender of Riitta has been under debate for years, but the riff and building energy is a rock masterpiece regardless.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Riitta", - "start_position": 19, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "true", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "true", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gender", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "gender", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Riitta", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Riitta", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 26, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 30, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "debate", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "debate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 48, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "years", - "idx": 52, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 57, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 59, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "riff", - "idx": 67, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "riff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 72, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "building", - "idx": 76, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "building", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "energy", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "energy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 92, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 95, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rock", - "idx": 97, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rock", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masterpiece", - "idx": 102, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "masterpiece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regardless", - "idx": 114, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "regardless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 124, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Syria", - "Lowercase": false, - "Template#": 94 - } - }, - { - "full_text": "What is procedure to redeem points won on credit card 4539918765630129 transactions ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4539918765630129", - "start_position": 54, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "procedure", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "procedure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 18, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "redeem", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "redeem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 28, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "won", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "win", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4539918765630129", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4539918765630129", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transactions", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 13 - } - }, - { - "full_text": "Meet me at Östra Förstadsgatan 43, KNIVSTA 74192", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Östra Förstadsgatan 43, KNIVSTA 74192", - "start_position": 11, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "Meet", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "meet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 8, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Östra", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Östra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Förstadsgatan", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Förstadsgatan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "43", - "idx": 31, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "43", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 33, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "KNIVSTA", - "idx": 35, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "KNIVSTA", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "74192", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "74192", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Croatia", - "Lowercase": false, - "Template#": 70 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' EmilySanderson@jourrapide.com", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "EmilySanderson@jourrapide.com", - "start_position": 59, - "end_position": 88 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "EmilySanderson@jourrapide.com", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "pobj", - "lemma_": "emilysanderson@jourrapide.com", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Switzerland", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "Celebrating its 10th year in Mannekensvere, Maxi-Tech is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Mannekensvere", - "start_position": 29, - "end_position": 42 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Maxi-Tech", - "start_position": 44, - "end_position": 53 - } - ], - "tokens": [ - { - "text": "Celebrating", - "idx": 0, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "celebrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10th", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "10th", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mannekensvere", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Mannekensvere", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 42, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Maxi", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Maxi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 48, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tech", - "idx": 49, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Tech", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 54, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 57, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "501(c)3", - "idx": 59, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "501(c)3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 67, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invites", - "idx": 72, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "invite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 80, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 92, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "around", - "idx": 97, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 104, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 108, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 114, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Texas", - "idx": 117, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Texas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 123, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "share", - "idx": 126, - "tag_": "VB", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 132, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "universal", - "idx": 136, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "universal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "language", - "idx": 146, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "language", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 155, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 158, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 164, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "collaborations", - "idx": 167, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "collaboration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designed", - "idx": 182, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 191, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bridge", - "idx": 194, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "bridge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultures", - "idx": 201, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "culture", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 209, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "build", - "idx": 211, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "build", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "friendships", - "idx": 217, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "friendship", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 229, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultivate", - "idx": 233, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "cultivate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peace", - "idx": 243, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "peace", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 248, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Kenya", - "Lowercase": false, - "Template#": 116 - } - }, - { - "full_text": "How do I open my credit card statement?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "open", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "open", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 14, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Japanese (Anglicized)", - "Country": "Syria", - "Lowercase": false, - "Template#": 20 - } - }, - { - "full_text": "I will be travelling to Jamaica next week, so I need my passport to be ready by then", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Jamaica", - "start_position": 24, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "travelling", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "travel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jamaica", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Jamaica", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "next", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "week", - "idx": 37, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "week", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 41, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 43, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 46, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 48, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 53, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "passport", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "passport", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 65, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 68, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ready", - "idx": 71, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "ready", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 77, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "then", - "idx": 80, - "tag_": "RB", - "pos_": "ADV", - "dep_": "pcomp", - "lemma_": "then", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Jamaica", - "Lowercase": false, - "Template#": 22 - } - }, - { - "full_text": "Hello, this is Eng. Bojka Žilih. Who are you?", - "masked": null, - "spans": [ - { - "entity_type": "TITLE", - "entity_value": "Eng.", - "start_position": 15, - "end_position": 19 - }, - { - "entity_type": "PERSON", - "entity_value": "Bojka Žilih", - "start_position": 20, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "Hello", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "hello", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 5, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 12, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Eng", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Eng", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 18, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bojka", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Bojka", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Žilih", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Žilih", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Who", - "idx": 33, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "who", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 37, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 41, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-TITLE", - "L-TITLE", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "Poland", - "Lowercase": false, - "Template#": 50 - } - }, - { - "full_text": "What's your name? Milena Rossi", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Milena Rossi", - "start_position": 18, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 16, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Milena", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Milena", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rossi", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Rossi", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Greece", - "Lowercase": false, - "Template#": 66 - } - }, - { - "full_text": "I need to add addresses, here they are: Lukkarinmäentie 62, PORNAINEN 07170, Parmova 24, Mavčiče 4211", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Lukkarinmäentie 62, PORNAINEN 07170", - "start_position": 41, - "end_position": 76 - }, - { - "entity_type": "LOCATION", - "entity_value": "Parmova 24, Mavčiče 4211", - "start_position": 78, - "end_position": 102 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "add", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "add", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 14, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addresses", - "idx": 15, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 24, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 26, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 31, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 36, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 39, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lukkarinmäentie", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Lukkarinmäentie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "62", - "idx": 57, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "62", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 59, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PORNAINEN", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "PORNAINEN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "07170", - "idx": 71, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "07170", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 76, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Parmova", - "idx": 78, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Parmova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "24", - "idx": 86, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "24", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 88, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mavčiče", - "idx": 90, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Mavčiče", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4211", - "idx": 98, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4211", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Botswana", - "Lowercase": false, - "Template#": 48 - } - }, - { - "full_text": "For my take on Mr. Bergström, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bergström", - "start_position": 19, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bergström", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Bergström", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 28, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 30, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 41, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 50, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 52, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 64, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 67, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 75, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 78, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 82, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 91, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 94, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 99, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 100, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 104, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 113, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 117, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Haiti", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "What's your last name? Herceg", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Herceg", - "start_position": 23, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 21, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Herceg", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Herceg", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Croatian", - "Country": "Dominican Republic", - "Lowercase": false, - "Template#": 67 - } - }, - { - "full_text": "The Tiegan Hill version recorded for Great Western became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Tiegan Hill", - "start_position": 4, - "end_position": 15 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Great Western", - "start_position": 37, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tiegan", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Tiegan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hill", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Hill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "version", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "version", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recorded", - "idx": 24, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "record", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 33, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Great", - "idx": 37, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Great", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Western", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Western", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 51, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 62, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "celebrity", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "celebrity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recording", - "idx": 78, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "recording", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 88, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 91, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "classical", - "idx": 93, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "classical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musician", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 112, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sell", - "idx": 115, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "sell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 120, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 124, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "copies", - "idx": 132, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "copy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 138, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 140, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 144, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 149, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "awarded", - "idx": 153, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "award", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 161, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "seventh", - "idx": 165, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "seventh", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gold", - "idx": 173, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "gold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "disc", - "idx": 178, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "disc", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ever", - "idx": 183, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "ever", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "granted", - "idx": 188, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "grant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 195, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Scottish", - "Country": "Cape Verde Islands", - "Lowercase": false, - "Template#": 110 - } - }, - { - "full_text": "Liviana Palerma will be talking in the conference", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Liviana Palerma", - "start_position": 0, - "end_position": 15 - } - ], - "tokens": [ - { - "text": "Liviana", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Liviana", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Palerma", - "idx": 8, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Palerma", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 16, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 21, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "talking", - "idx": 24, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "talk", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 35, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "conference", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "conference", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Zambia", - "Lowercase": false, - "Template#": 90 - } - }, - { - "full_text": "Nusa Weress listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Klimek Kozłowski – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Nusa Weress", - "start_position": 0, - "end_position": 11 - }, - { - "entity_type": "PERSON", - "entity_value": "Klimek Kozłowski", - "start_position": 167, - "end_position": 183 - } - ], - "tokens": [ - { - "text": "Nusa", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Nusa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weress", - "idx": 5, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Weress", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 12, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 19, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 23, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 27, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 30, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 61, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 65, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 69, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 73, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 79, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 82, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 87, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 97, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 100, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 101, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 103, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 105, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 106, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 111, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 115, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 118, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 122, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 125, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 126, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 128, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 132, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 135, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 137, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 150, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 156, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 162, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 164, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Klimek", - "idx": 167, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Klimek", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kozłowski", - "idx": 174, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Kozłowski", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 184, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 186, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 188, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 191, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 197, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Yemen", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "Georgia was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Georgia", - "start_position": 0, - "end_position": 7 - } - ], - "tokens": [ - { - "text": "Georgia", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Georgia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 8, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 22, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 25, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 30, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Georgia", - "Lowercase": false, - "Template#": 24 - } - }, - { - "full_text": "I'm so jealous! said Bárður to Victoria", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bárður", - "start_position": 21, - "end_position": 27 - }, - { - "entity_type": "PERSON", - "entity_value": "Victoria", - "start_position": 31, - "end_position": 39 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 4, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jealous", - "idx": 7, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "jealous", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 14, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 16, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bárður", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Bárður", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Victoria", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Victoria", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Cameroon", - "Lowercase": false, - "Template#": 93 - } - }, - { - "full_text": "Sölvi Salómonsson from 10,000 Auto Parts is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Sölvi Salómonsson", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "10,000 Auto Parts", - "start_position": 23, - "end_position": 40 - } - ], - "tokens": [ - { - "text": "Sölvi", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sölvi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Salómonsson", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Salómonsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10,000", - "idx": 23, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10,000", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Auto", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Auto", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Parts", - "idx": 35, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Parts", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 41, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 44, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 48, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Ukraine", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "can i speak to a real person?!?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 15, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "real", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "real", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 28, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 30, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "Niger", - "Lowercase": true, - "Template#": 44 - } - }, - { - "full_text": "card number 5137226842425650 is lost, can you please send a new one to Σουνίου 121, ΛΑΡΝΑΚΑ 6014 i am in ΛΑΡΝΑΚΑ for a business trip", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5137226842425650", - "start_position": 12, - "end_position": 28 - }, - { - "entity_type": "LOCATION", - "entity_value": "Σουνίου 121, ΛΑΡΝΑΚΑ 6014", - "start_position": 71, - "end_position": 96 - }, - { - "entity_type": "LOCATION", - "entity_value": "ΛΑΡΝΑΚΑ", - "start_position": 105, - "end_position": 112 - } - ], - "tokens": [ - { - "text": "card", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5137226842425650", - "idx": 12, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5137226842425650", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 32, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 36, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 46, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Σουνίου", - "idx": 71, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advcl", - "lemma_": "Σουνίου", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "121", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "121", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 82, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ΛΑΡΝΑΚΑ", - "idx": 84, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "ΛΑΡΝΑΚΑ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "6014", - "idx": 92, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "6014", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 97, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "am", - "idx": 99, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 102, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ΛΑΡΝΑΚΑ", - "idx": 105, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "ΛΑΡΝΑΚΑ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 113, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 117, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "business", - "idx": 119, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "trip", - "idx": 128, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "trip", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Japanese (Anglicized)", - "Country": "Senegal", - "Lowercase": false, - "Template#": 29 - } - }, - { - "full_text": "mission statement: this non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid,\" according to the i. magnin website. they offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "i. magnin", - "start_position": 257, - "end_position": 266 - } - ], - "tokens": [ - { - "text": "mission", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "mission", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 17, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "non", - "idx": 24, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "non", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "profit", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "profit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founded", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "found", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 43, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "radio", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "radio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "executives", - "idx": 52, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "executive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 63, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serves", - "idx": 64, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 71, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "advocate", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "advocate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 86, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "value", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "value", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 108, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 110, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 114, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "supports", - "idx": 115, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "support", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 124, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 128, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 139, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "composers", - "idx": 141, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "composer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 151, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "publishers", - "idx": 155, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "publisher", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 166, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taking", - "idx": 169, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "care", - "idx": 176, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "care", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 181, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 184, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "important", - "idx": 187, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "important", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aspect", - "idx": 197, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "aspect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 204, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "their", - "idx": 207, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "careers", - "idx": 213, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "career", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 221, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "aux", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 223, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 225, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "auxpass", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "paid", - "idx": 233, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 237, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 238, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "according", - "idx": 240, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "accord", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 250, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 253, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i.", - "idx": 257, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "i.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "magnin", - "idx": 260, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "magnin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 267, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 274, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 276, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "offer", - "idx": 281, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "offer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blanket", - "idx": 287, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "blanket", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 295, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "licenses", - "idx": 301, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "license", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 310, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "businesses", - "idx": 313, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 324, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "organizations", - "idx": 328, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "organization", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 342, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 347, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "them", - "idx": 353, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 358, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "play", - "idx": 361, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "play", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nearly", - "idx": 366, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "nearly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "13", - "idx": 373, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "13", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 376, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 384, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "works", - "idx": 392, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 397, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Morocco", - "Lowercase": true, - "Template#": 114 - } - }, - { - "full_text": "Need to see last 10 transaction of card 4556449812341468", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4556449812341468", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10", - "idx": 17, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transaction", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4556449812341468", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4556449812341468", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Azerbaijan", - "Lowercase": false, - "Template#": 9 - } - }, - { - "full_text": "My name appears incorrectly on credit card statement could you please correct it to Prof. Matthias Gloeckner?", - "masked": null, - "spans": [ - { - "entity_type": "TITLE", - "entity_value": "Prof.", - "start_position": 84, - "end_position": 89 - }, - { - "entity_type": "PERSON", - "entity_value": "Matthias Gloeckner", - "start_position": 90, - "end_position": 108 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "appears", - "idx": 8, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "appear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "incorrectly", - "idx": 16, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "incorrectly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 38, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 53, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 59, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 63, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 70, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 78, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 81, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Prof.", - "idx": 84, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Prof.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Matthias", - "idx": 90, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Matthias", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Gloeckner", - "idx": 99, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Gloeckner", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 108, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-TITLE", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Haiti", - "Lowercase": false, - "Template#": 28 - } - }, - { - "full_text": "Need to see last 10 transaction of card 5274120301749804", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5274120301749804", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10", - "idx": 17, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transaction", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5274120301749804", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5274120301749804", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Venezuela", - "Lowercase": false, - "Template#": 9 - } - }, - { - "full_text": "how do i change my address to ul. pck 125, jastrzębie-zdrój 44-335 for post mail?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "ul. pck 125, jastrzębie-zdrój 44-335", - "start_position": 30, - "end_position": 66 - } - ], - "tokens": [ - { - "text": "how", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 16, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ul", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ul", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 32, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "pobj", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pck", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "pck", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "125", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "125", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 41, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jastrzębie", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "jastrzębie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 53, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "zdrój", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "zdrój", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "44", - "idx": 60, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "44", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 62, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "335", - "idx": 63, - "tag_": "CD", - "pos_": "NUM", - "dep_": "prep", - "lemma_": "335", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 67, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "post", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "post", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mail", - "idx": 76, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "mail", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 80, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Nepal", - "Lowercase": true, - "Template#": 27 - } - }, - { - "full_text": "I've shared files with you ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 27, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'ve", - "idx": 1, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shared", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "files", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "file", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "France", - "Lowercase": false, - "Template#": 80 - } - }, - { - "full_text": "I'd like it to be sent to Rua Carlos Alberto de Morais 1696, Timon 65633-150", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Rua Carlos Alberto de Morais 1696, Timon 65633-150", - "start_position": 26, - "end_position": 76 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rua", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rua", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carlos", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Carlos", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Alberto", - "idx": 37, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nmod", - "lemma_": "Alberto", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "de", - "idx": 45, - "tag_": "IN", - "pos_": "ADP", - "dep_": "compound", - "lemma_": "de", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Morais", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Morais", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1696", - "idx": 55, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "1696", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 59, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Timon", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Timon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "65633", - "idx": 67, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "65633", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 72, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "150", - "idx": 73, - "tag_": "CD", - "pos_": "NUM", - "dep_": "prep", - "lemma_": "150", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Malaysia", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "Dun Rite Lawn Care is the brainchild of our 3 founders: Charlotte Park, Oline Mikaelsen and Brodie Walker. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Dun Rite Lawn Care", - "start_position": 0, - "end_position": 18 - }, - { - "entity_type": "PERSON", - "entity_value": "Charlotte Park", - "start_position": 56, - "end_position": 70 - }, - { - "entity_type": "PERSON", - "entity_value": "Oline Mikaelsen", - "start_position": 72, - "end_position": 87 - }, - { - "entity_type": "PERSON", - "entity_value": "Brodie Walker", - "start_position": 92, - "end_position": 105 - } - ], - "tokens": [ - { - "text": "Dun", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Dun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rite", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lawn", - "idx": 9, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lawn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Care", - "idx": 14, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Care", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 19, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brainchild", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "brainchild", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 37, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3", - "idx": 44, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founders", - "idx": 46, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "founder", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 54, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Charlotte", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Charlotte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Park", - "idx": 66, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Park", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 70, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Oline", - "idx": 72, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Oline", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mikaelsen", - "idx": 78, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Mikaelsen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 88, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brodie", - "idx": 92, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Brodie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Walker", - "idx": 99, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Walker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 105, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 107, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 108, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 112, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 117, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "born", - "idx": 121, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 126, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 127, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 130, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beach", - "idx": 134, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 139, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 141, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 147, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 152, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "constructing", - "idx": 157, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "construct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 170, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 172, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 180, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 183, - "tag_": "VB", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 186, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "basis", - "idx": 190, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "basis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 196, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "another", - "idx": 199, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "another", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "start", - "idx": 207, - "tag_": "VB", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "start", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 212, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 213, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 216, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 220, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Asia", - "Lowercase": false, - "Template#": 117 - } - }, - { - "full_text": "Mikkel is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mikkel", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "Mikkel", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Mikkel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 12, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 37, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 39, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 42, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 47, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 49, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Yugoslavia", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "I have lost my card 4929149013148403. Could you please block my credit card ASAP ? , My name is Valida Kishiev.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929149013148403", - "start_position": 20, - "end_position": 36 - }, - { - "entity_type": "PERSON", - "entity_value": "Valida Kishiev", - "start_position": 96, - "end_position": 110 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929149013148403", - "idx": 20, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "4929149013148403", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 48, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 55, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 61, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ASAP", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advmod", - "lemma_": "ASAP", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 85, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 88, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 93, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Valida", - "idx": 96, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Valida", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kishiev", - "idx": 103, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Kishiev", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 110, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Vietnam", - "Lowercase": false, - "Template#": 10 - } - }, - { - "full_text": "How do I check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Sunni", - "Lowercase": false, - "Template#": 15 - } - }, - { - "full_text": "From the film American graffiti (also features Mille Kristensen. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mille Kristensen", - "start_position": 47, - "end_position": 63 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mille", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mille", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kristensen", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Kristensen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 63, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 65, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 69, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 72, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 79, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 83, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Germany", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "I would like to remove my kid Nedim from the will. How do I do that?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Nedim", - "start_position": 30, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "remove", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "remove", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kid", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "kid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Nedim", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Nedim", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 41, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 45, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "How", - "idx": 51, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 55, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 58, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 60, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Scotland", - "Lowercase": false, - "Template#": 45 - } - }, - { - "full_text": "I want to upadte my primary and secondary address to same: 4822 Rosemont Avenue, Melbourne 32901", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "4822 Rosemont Avenue, Melbourne 32901", - "start_position": 59, - "end_position": 96 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "upadte", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "upadte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "primary", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "primary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "secondary", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "conj", - "lemma_": "secondary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "same", - "idx": 53, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "pobj", - "lemma_": "same", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 57, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4822", - "idx": 59, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4822", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rosemont", - "idx": 64, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rosemont", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Avenue", - "idx": 73, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Avenue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 79, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Melbourne", - "idx": 81, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Melbourne", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "32901", - "idx": 91, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "32901", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Brunei", - "Lowercase": false, - "Template#": 3 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Ethiopia. Producer Joseph Farmer explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Ethiopia", - "start_position": 34, - "end_position": 42 - }, - { - "entity_type": "PERSON", - "entity_value": "Joseph Farmer", - "start_position": 53, - "end_position": 66 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ethiopia", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ethiopia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 42, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 44, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Joseph", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Joseph", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Farmer", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Farmer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 67, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 77, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 87, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 89, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 90, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 97, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 112, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 115, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 123, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 125, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 130, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 136, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 140, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 145, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 147, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 153, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 156, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 161, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 165, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 169, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 171, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 174, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 177, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 179, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 182, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 186, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 191, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 201, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 207, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 210, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 214, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 219, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 221, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 226, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 231, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 235, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 238, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 245, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 252, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 255, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 259, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 265, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 268, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 272, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 275, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 280, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 286, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 291, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 295, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 301, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 304, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 308, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 310, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 318, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 327, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 331, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 333, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 337, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 343, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 348, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 349, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Ethiopia", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "religion", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "religion", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "does", - "idx": 12, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 17, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaking", - "idx": 27, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bots", - "idx": 39, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 43, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 50, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "evil", - "idx": 54, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "evil", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 59, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hacked", - "idx": 63, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "hack", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 70, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Devil", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Devil", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Icelandic", - "Country": "Bahrain", - "Lowercase": false, - "Template#": 32 - } - }, - { - "full_text": "Need to change billing date of my card 5523189324690427", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5523189324690427", - "start_position": 39, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "billing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5523189324690427", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "npadvmod", - "lemma_": "5523189324690427", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Vietnam", - "Lowercase": false, - "Template#": 2 - } - }, - { - "full_text": "How do I change my address to 23 Settlement Road, WINNINDOO 3858 for post mail?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "23 Settlement Road, WINNINDOO 3858", - "start_position": 30, - "end_position": 64 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 16, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "23", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "23", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Settlement", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Settlement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Road", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Road", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 48, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "WINNINDOO", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "WINNINDOO", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3858", - "idx": 60, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3858", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 65, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "post", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "post", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mail", - "idx": 74, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "mail", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Croatian", - "Country": "Tunisia", - "Lowercase": false, - "Template#": 27 - } - }, - { - "full_text": "Need to change billing date of my card 5219586763129719", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5219586763129719", - "start_position": 39, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "billing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5219586763129719", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5219586763129719", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Iraq", - "Lowercase": false, - "Template#": 2 - } - }, - { - "full_text": "I work for Modern Realty", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Modern Realty", - "start_position": 11, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Modern", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Modern", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Realty", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Realty", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "North Korea", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "Please update billing addrress with Tekniikantie 8, PUNKAHARJU 58450 for this card: 5279257345280449", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Tekniikantie 8, PUNKAHARJU 58450", - "start_position": 36, - "end_position": 68 - }, - { - "entity_type": "CREDIT_CARD", - "entity_value": "5279257345280449", - "start_position": 84, - "end_position": 100 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "update", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "update", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 14, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "bill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addrress", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "addrress", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 31, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tekniikantie", - "idx": 36, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Tekniikantie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "8", - "idx": 49, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "8", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 50, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PUNKAHARJU", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "PUNKAHARJU", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "58450", - "idx": 63, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "58450", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 69, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 78, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 82, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5279257345280449", - "idx": 84, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "5279257345280449", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Pakistan", - "Lowercase": false, - "Template#": 8 - } - }, - { - "full_text": "Nestor is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Nestor", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "Nestor", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Nestor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 12, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 37, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 39, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 42, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 47, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 49, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Sweden", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "Please tell me your date of birth. It's 12/18/1989", - "masked": null, - "spans": [ - { - "entity_type": "BIRTHDAY", - "entity_value": "12/18/1989", - "start_position": 40, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "birth", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "birth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 33, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 35, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "12/18/1989", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "12/18/1989", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-BIRTHDAY" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Mozambique", - "Lowercase": false, - "Template#": 59 - } - }, - { - "full_text": "Need to change billing date of my card 4929112942340210", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929112942340210", - "start_position": 39, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "billing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929112942340210", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4929112942340210", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Maldives", - "Lowercase": false, - "Template#": 2 - } - }, - { - "full_text": "My website is ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 14, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 11, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Bolivia", - "Lowercase": false, - "Template#": 78 - } - }, - { - "full_text": "Why is Bethany so impulsive?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bethany", - "start_position": 7, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "Why", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bethany", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Bethany", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 15, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "impulsive", - "idx": 18, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "impulsive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "England", - "Lowercase": false, - "Template#": 89 - } - }, - { - "full_text": "i want to cancel my card 4532781491729798 because i lost it", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4532781491729798", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "i", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4532781491729798", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4532781491729798", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "because", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "because", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 50, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 52, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Kenya", - "Lowercase": true, - "Template#": 52 - } - }, - { - "full_text": "I work for Buttrey Food & Drug", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Buttrey Food & Drug", - "start_position": 11, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Buttrey", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Buttrey", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Food", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Food", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "&", - "idx": 24, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "&", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Drug", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Drug", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "Macedonia", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "I've shared files with you ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 27, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'ve", - "idx": 1, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shared", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "files", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "file", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Eritrea", - "Lowercase": false, - "Template#": 80 - } - }, - { - "full_text": "Maybe it's under Reineke Stuit", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Reineke Stuit", - "start_position": 17, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "Maybe", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "maybe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 11, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Reineke", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Reineke", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stuit", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Stuit", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Jordan", - "Lowercase": false, - "Template#": 75 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' NatalinaLucchese@superrito.com", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "NatalinaLucchese@superrito.com", - "start_position": 59, - "end_position": 89 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "NatalinaLucchese@superrito.com", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "pobj", - "lemma_": "natalinalucchese@superrito.com", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Somalia", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Israel. Producer Zdeňka Nováková explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Israel", - "start_position": 34, - "end_position": 40 - }, - { - "entity_type": "PERSON", - "entity_value": "Zdeňka Nováková", - "start_position": 51, - "end_position": 66 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Israel", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Israel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zdeňka", - "idx": 51, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zdeňka", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Nováková", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Nováková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 67, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 77, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 87, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 89, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 90, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 97, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 112, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 115, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 123, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 125, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 130, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 136, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 140, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 145, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 147, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 153, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 156, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 161, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 165, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 169, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 171, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 174, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 177, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 179, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 182, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 186, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 191, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 201, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 207, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 210, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 214, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 219, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 221, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 226, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 231, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 235, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 238, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 245, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 252, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 255, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 259, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 265, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 268, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 272, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 275, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 280, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 286, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 291, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 295, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 301, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 304, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 308, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 310, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 318, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 327, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 331, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 333, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 337, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 343, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 348, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 349, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Israel", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "Bot: Where would you like this to be sent to? User: Bergliveien 232, STAVANGER 4020", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Bergliveien 232, STAVANGER 4020", - "start_position": 52, - "end_position": 83 - } - ], - "tokens": [ - { - "text": "Bot", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 3, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Where", - "idx": 5, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 11, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 26, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 31, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 34, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 37, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "User", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 50, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bergliveien", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Bergliveien", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "232", - "idx": 64, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "232", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 67, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "STAVANGER", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "STAVANGER", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4020", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4020", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Liberia", - "Lowercase": false, - "Template#": 41 - } - }, - { - "full_text": "I'd like it to be sent to 4144 Sycamore Circle, Euless 76039", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "4144 Sycamore Circle, Euless 76039", - "start_position": 26, - "end_position": 60 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4144", - "idx": 26, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4144", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sycamore", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sycamore", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Circle", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Circle", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 46, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Euless", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Euless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "76039", - "idx": 55, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "76039", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "Asia", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "Why is Efimiya so impulsive?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Efimiya", - "start_position": 7, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "Why", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Efimiya", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Efimiya", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 15, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "impulsive", - "idx": 18, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "impulsive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Latvia", - "Lowercase": false, - "Template#": 89 - } - }, - { - "full_text": "What is the limit for card 4929854539121566?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929854539121566", - "start_position": 27, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 8, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929854539121566", - "idx": 27, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4929854539121566", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Zambia", - "Lowercase": false, - "Template#": 54 - } - }, - { - "full_text": "I want to add William Kjær as a beneficiary to my account", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "William Kjær", - "start_position": 14, - "end_position": 26 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "add", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "add", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "William", - "idx": 14, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "William", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kjær", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Kjær", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 27, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beneficiary", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beneficiary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 44, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 47, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 50, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Wales", - "Lowercase": false, - "Template#": 51 - } - }, - { - "full_text": "Can someone call me on 99 702542? I have some questions about opening an account.", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "99 702542", - "start_position": 23, - "end_position": 32 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "someone", - "idx": 4, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "someone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 12, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 20, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "99", - "idx": 23, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "99", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "702542", - "idx": 26, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "702542", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 32, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 34, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 36, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "some", - "idx": 41, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "some", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "questions", - "idx": 46, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "question", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 56, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "opening", - "idx": 62, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "open", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 70, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 73, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 80, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Guinea", - "Lowercase": false, - "Template#": 55 - } - }, - { - "full_text": "south-america was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "south-america", - "start_position": 0, - "end_position": 13 - } - ], - "tokens": [ - { - "text": "south", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "south", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 5, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "america", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "america", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 14, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 18, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 28, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 31, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "South-America", - "Lowercase": true, - "Template#": 24 - } - }, - { - "full_text": "How can I request a new credit card pin ?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pin", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Japanese (Anglicized)", - "Country": "Sri Lanka", - "Lowercase": false, - "Template#": 17 - } - }, - { - "full_text": "Emilie Johansen listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Polona Ranković – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Emilie Johansen", - "start_position": 0, - "end_position": 15 - }, - { - "entity_type": "PERSON", - "entity_value": "Polona Ranković", - "start_position": 171, - "end_position": 186 - } - ], - "tokens": [ - { - "text": "Emilie", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Emilie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Johansen", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Johansen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 16, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 31, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 34, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 65, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 69, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 77, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 83, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 86, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 91, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 96, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 101, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 104, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 105, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 107, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 109, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 110, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 115, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 119, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 122, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 126, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 129, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 130, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 132, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 136, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 139, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 141, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 154, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 160, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 166, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 168, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Polona", - "idx": 171, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Polona", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ranković", - "idx": 178, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ranković", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 187, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 189, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 191, - "tag_": "VB", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 194, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 200, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "Guyana", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "What's your credit card? 4929218835001304", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929218835001304", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 23, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929218835001304", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "ROOT", - "lemma_": "4929218835001304", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Australian", - "Country": "Paraguay", - "Lowercase": false, - "Template#": 65 - } - }, - { - "full_text": "For my take on Mr. Wilson, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Wilson", - "start_position": 19, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Wilson", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Wilson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 25, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 27, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 38, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 47, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 49, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 51, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 61, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 64, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 68, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 72, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 75, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 79, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 88, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 91, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 96, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 97, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 101, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 110, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 114, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Latvia", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "Gabrjel Kozłowski from Second Time Around is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Gabrjel Kozłowski", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Second Time Around", - "start_position": 23, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "Gabrjel", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Gabrjel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kozłowski", - "idx": 8, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Kozłowski", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Second", - "idx": 23, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "compound", - "lemma_": "second", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Time", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "time", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Around", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "nsubj", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 42, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 49, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 57, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Eritrea", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Marsilius Chenard's Cautionary Tales. Is there a better example of unbridled creativity than early Chenard?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Marsilius Chenard", - "start_position": 124, - "end_position": 141 - }, - { - "entity_type": "PERSON", - "entity_value": "Chenard", - "start_position": 223, - "end_position": 230 - } - ], - "tokens": [ - { - "text": "When", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 10, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 14, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "singing", - "idx": 18, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "singe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hobbits", - "idx": 32, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Hobbits", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "satanic", - "idx": 41, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "satanic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "felines", - "idx": 49, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "feline", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 57, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "interstellar", - "idx": 61, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "interstellar", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "journeys", - "idx": 74, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "journey", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 82, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 84, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 89, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "singing", - "idx": 94, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "singe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 102, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 108, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verses", - "idx": 112, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Marsilius", - "idx": 124, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Marsilius", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chenard", - "idx": 134, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Chenard", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 141, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cautionary", - "idx": 144, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "cautionary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tales", - "idx": 155, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Tales", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 160, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Is", - "idx": 162, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 165, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 171, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "better", - "idx": 173, - "tag_": "JJR", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "well", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 180, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 188, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unbridled", - "idx": 191, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "unbridled", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "creativity", - "idx": 201, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "creativity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "than", - "idx": 212, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "than", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "early", - "idx": 217, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chenard", - "idx": 223, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Chenard", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 230, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "El Salvador", - "Lowercase": false, - "Template#": 101 - } - }, - { - "full_text": "I work for Locost Accessories", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Locost Accessories", - "start_position": 11, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Locost", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Locost", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Accessories", - "idx": 18, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "accessory", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Kuwait", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "Can someone call me on 0477 99 13 51? I have some questions about opening an account.", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "0477 99 13 51", - "start_position": 23, - "end_position": 36 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "someone", - "idx": 4, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "someone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 12, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 20, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "0477", - "idx": 23, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "0477", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "99", - "idx": 28, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "99", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "13", - "idx": 31, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "13", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "51", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "51", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 38, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 40, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "some", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "some", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "questions", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "question", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 60, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "opening", - "idx": 66, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "open", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 55 - } - }, - { - "full_text": "I can't browse to your site, keep getting address blocked error", - "masked": null, - "spans": [ - { - "entity_type": "IP_ADDRESS", - "entity_value": "", - "start_position": 50, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ca", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 4, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "browse", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "browse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 18, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "site", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "site", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keep", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "keep", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 34, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 50, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blocked", - "idx": 51, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "error", - "idx": 59, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "error", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Palestine", - "Lowercase": false, - "Template#": 31 - } - }, - { - "full_text": "tryggvadóttir spent a year at rogers peet as the assistant to margrét tryggvadóttir, and the following year at big wheel in begonte, which later became movie gallery in 1965.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "tryggvadóttir", - "start_position": 0, - "end_position": 13 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "rogers peet", - "start_position": 30, - "end_position": 41 - }, - { - "entity_type": "PERSON", - "entity_value": "margrét tryggvadóttir", - "start_position": 62, - "end_position": 83 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "big wheel", - "start_position": 111, - "end_position": 120 - }, - { - "entity_type": "LOCATION", - "entity_value": "begonte", - "start_position": 124, - "end_position": 131 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "movie gallery", - "start_position": 152, - "end_position": 165 - } - ], - "tokens": [ - { - "text": "tryggvadóttir", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "tryggvadóttir", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "spent", - "idx": 14, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "spend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 20, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rogers", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "rogers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peet", - "idx": 37, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "peet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "assistant", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "assistant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 59, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "margrét", - "idx": 62, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "margrét", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tryggvadóttir", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "tryggvadóttir", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 85, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 89, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "following", - "idx": 93, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "following", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 108, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "big", - "idx": 111, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "wheel", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "wheel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 121, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "begonte", - "idx": 124, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "begonte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 131, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "which", - "idx": 133, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "which", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "later", - "idx": 139, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "later", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 145, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "movie", - "idx": 152, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "movie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gallery", - "idx": 158, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "gallery", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 166, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1965", - "idx": 169, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1965", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 173, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Icelandic", - "Country": "Greece", - "Lowercase": true, - "Template#": 123 - } - }, - { - "full_text": "Please tell me your date of birth. It's 6/24/1958", - "masked": null, - "spans": [ - { - "entity_type": "BIRTHDAY", - "entity_value": "6/24/1958", - "start_position": 40, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "birth", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "birth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 33, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 35, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "6/24/1958", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "6/24/1958", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-BIRTHDAY" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "France", - "Lowercase": false, - "Template#": 59 - } - }, - { - "full_text": "Please send my portfolio to this email HannaUkkonen@dayrep.com", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "HannaUkkonen@dayrep.com", - "start_position": 39, - "end_position": 62 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "portfolio", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "portfolio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 28, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "HannaUkkonen@dayrep.com", - "idx": 39, - "tag_": "ADD", - "pos_": "X", - "dep_": "appos", - "lemma_": "hannaukkonen@dayrep.com", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Burkina", - "Lowercase": false, - "Template#": 49 - } - }, - { - "full_text": "Can I withdraw cash using my card 4485430802377197 at aTM center ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4485430802377197", - "start_position": 34, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdraw", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "withdraw", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cash", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "cash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "using", - "idx": 20, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "use", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 26, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4485430802377197", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4485430802377197", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aTM", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "punct", - "lemma_": "aTM", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "center", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "center", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 65, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Ethiopia", - "Lowercase": false, - "Template#": 18 - } - }, - { - "full_text": "the simone kristoffersen version recorded for hechinger became the first celebrity recording by a classical musician to sell one million copies. the song was awarded the seventh gold disc ever granted.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "simone kristoffersen", - "start_position": 4, - "end_position": 24 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "hechinger", - "start_position": 46, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "the", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "simone", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "simone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kristoffersen", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "kristoffersen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "version", - "idx": 25, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "version", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recorded", - "idx": 33, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "record", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hechinger", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "hechinger", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 56, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 67, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "celebrity", - "idx": 73, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "celebrity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recording", - "idx": 83, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "recording", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 93, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 96, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "classical", - "idx": 98, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "classical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musician", - "idx": 108, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 117, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sell", - "idx": 120, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "sell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 125, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 129, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "copies", - "idx": 137, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "copy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 143, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 145, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 149, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 154, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "awarded", - "idx": 158, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "award", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 166, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "seventh", - "idx": 170, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "seventh", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gold", - "idx": 178, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "gold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "disc", - "idx": 183, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "disc", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ever", - "idx": 188, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "ever", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "granted", - "idx": 193, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "grant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 200, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "U-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Barbados", - "Lowercase": true, - "Template#": 110 - } - }, - { - "full_text": "How do I check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hispanic", - "Country": "Vatican City", - "Lowercase": false, - "Template#": 15 - } - }, - { - "full_text": "Micro Design songwriter Zuzana Kozáková employs corporate lingo in the first verse of his Romp Resignation Letter", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Micro Design", - "start_position": 0, - "end_position": 12 - }, - { - "entity_type": "PERSON", - "entity_value": "Zuzana Kozáková", - "start_position": 24, - "end_position": 39 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Romp", - "start_position": 90, - "end_position": 94 - } - ], - "tokens": [ - { - "text": "Micro", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Micro", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Design", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriter", - "idx": 13, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zuzana", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zuzana", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kozáková", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Kozáková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employs", - "idx": 40, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "employ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "corporate", - "idx": 48, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "corporate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lingo", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "lingo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 64, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 67, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 71, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verse", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 83, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 86, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Romp", - "idx": 90, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Romp", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Resignation", - "idx": 95, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "resignation", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Letter", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "letter", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-ORGANIZATION", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Panama", - "Lowercase": false, - "Template#": 113 - } - }, - { - "full_text": "I want to upadte my primary and secondary address to same: Solvellir 96, Breiðdalsvík 760", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Solvellir 96, Breiðdalsvík 760", - "start_position": 59, - "end_position": 89 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "upadte", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "upadte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "primary", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "primary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "secondary", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "conj", - "lemma_": "secondary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "same", - "idx": 53, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "pobj", - "lemma_": "same", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 57, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Solvellir", - "idx": 59, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Solvellir", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "96", - "idx": 69, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "96", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 71, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Breiðdalsvík", - "idx": 73, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Breiðdalsvík", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "760", - "idx": 86, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "760", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Malawi", - "Lowercase": false, - "Template#": 3 - } - }, - { - "full_text": "My nam is Catalina", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Catalina", - "start_position": 10, - "end_position": 18 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nam", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "nam", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Catalina", - "idx": 10, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Catalina", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "Bosnia-Herzegovina", - "Lowercase": false, - "Template#": 56 - } - }, - { - "full_text": "I will be travelling to Portugal next week, so I need my passport to be ready by then", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Portugal", - "start_position": 24, - "end_position": 32 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "travelling", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "travel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Portugal", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Portugal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "next", - "idx": 33, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "week", - "idx": 38, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "week", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 42, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 44, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 47, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 49, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 54, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "passport", - "idx": 57, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "passport", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 66, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 69, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ready", - "idx": 72, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "ready", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 78, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "then", - "idx": 81, - "tag_": "RB", - "pos_": "ADV", - "dep_": "pcomp", - "lemma_": "then", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Portugal", - "Lowercase": false, - "Template#": 22 - } - }, - { - "full_text": "erick shouted at searlait: \"what are you doing here?\"", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "erick", - "start_position": 0, - "end_position": 5 - }, - { - "entity_type": "PERSON", - "entity_value": "searlait", - "start_position": 17, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "erick", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "erick", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shouted", - "idx": 6, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "shout", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 14, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "searlait", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "searlait", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 25, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 27, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 28, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 33, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 37, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "doing", - "idx": 41, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 47, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 51, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 52, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Rwanda", - "Lowercase": true, - "Template#": 122 - } - }, - { - "full_text": "What's your last name? Annear", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Annear", - "start_position": 23, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 21, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Annear", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Annear", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Nigeria", - "Lowercase": false, - "Template#": 67 - } - }, - { - "full_text": "Could you please email me the statement for laste month , my credit card number is 4929254733771086?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929254733771086", - "start_position": 83, - "end_position": 99 - } - ], - "tokens": [ - { - "text": "Could", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 10, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 17, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 26, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "laste", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "laste", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 50, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 56, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 58, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 61, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 73, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 80, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929254733771086", - "idx": 83, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "4929254733771086", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Iran", - "Lowercase": false, - "Template#": 25 - } - }, - { - "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city NOKIA: Family Toy, Edge Garden Services and Kessel Food Market. \"Don't feed me planned obsolescence,\" says Zulikhan Sheripov in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "NOKIA", - "start_position": 132, - "end_position": 137 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Family Toy", - "start_position": 139, - "end_position": 149 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Edge Garden Services", - "start_position": 151, - "end_position": 171 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Kessel Food Market", - "start_position": 176, - "end_position": 194 - }, - { - "entity_type": "PERSON", - "entity_value": "Zulikhan Sheripov", - "start_position": 239, - "end_position": 256 - } - ], - "tokens": [ - { - "text": "\"", - "idx": 0, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "ROOT", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 1, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "big", - "idx": 5, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "three", - "idx": 9, - "tag_": "CD", - "pos_": "NUM", - "dep_": "intj", - "lemma_": "three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 14, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Big", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Three", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Killed", - "idx": 33, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "kill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Baby", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Baby", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 48, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "car", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "car", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manufacturers", - "idx": 60, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "manufacturer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 74, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "dominate", - "idx": 79, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "dominate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 88, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "economy", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "economy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "White", - "idx": 107, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "White", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stripes", - "idx": 113, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Stripes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 120, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "home", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "city", - "idx": 127, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "city", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "NOKIA", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "NOKIA", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 137, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Family", - "idx": 139, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Toy", - "idx": 146, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Toy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 149, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Edge", - "idx": 151, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Edge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Garden", - "idx": 156, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Garden", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Services", - "idx": 163, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Services", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 172, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kessel", - "idx": 176, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Kessel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Food", - "idx": 183, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Food", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Market", - "idx": 188, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Market", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 194, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 196, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Do", - "idx": 197, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 199, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "feed", - "idx": 203, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "feed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 208, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "planned", - "idx": 211, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "plan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "obsolescence", - "idx": 219, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "obsolescence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 231, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 232, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "says", - "idx": 234, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zulikhan", - "idx": 239, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zulikhan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sheripov", - "idx": 248, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Sheripov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 257, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 260, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "uncharacteristically", - "idx": 263, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "uncharacteristically", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "political", - "idx": 284, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "political", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 294, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 298, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lamenting", - "idx": 300, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lament", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 310, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "demise", - "idx": 314, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "demise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 321, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 324, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unions", - "idx": 328, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "union", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 335, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 338, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "60s", - "idx": 342, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "60", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 345, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "South Africa", - "Lowercase": false, - "Template#": 112 - } - }, - { - "full_text": "What's your credit card? 5408874333937576", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5408874333937576", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 23, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5408874333937576", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "ROOT", - "lemma_": "5408874333937576", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Middle-East", - "Lowercase": false, - "Template#": 65 - } - }, - { - "full_text": "Jean is very reliable. You can always depend on him.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Jean", - "start_position": 0, - "end_position": 4 - } - ], - "tokens": [ - { - "text": "Jean", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jean", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 8, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reliable", - "idx": 13, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "reliable", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 21, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 27, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "always", - "idx": 31, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "always", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "depend", - "idx": 38, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "depend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 45, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "him", - "idx": 48, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 51, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "Lithuania", - "Lowercase": false, - "Template#": 88 - } - }, - { - "full_text": "Mie is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mie", - "start_position": 0, - "end_position": 3 - } - ], - "tokens": [ - { - "text": "Mie", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Mie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 9, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 32, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 34, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 36, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 39, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 44, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 46, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 51, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Kurdistan", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "Guatemala was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Guatemala", - "start_position": 0, - "end_position": 9 - } - ], - "tokens": [ - { - "text": "Guatemala", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Guatemala", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 10, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 24, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 27, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 32, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Greenland", - "Country": "Guatemala", - "Lowercase": false, - "Template#": 24 - } - }, - { - "full_text": "I have lost my card 5150741044143598. Could you please block my credit card ASAP ? , My name is Leevi Hasti.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5150741044143598", - "start_position": 20, - "end_position": 36 - }, - { - "entity_type": "PERSON", - "entity_value": "Leevi Hasti", - "start_position": 96, - "end_position": 107 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5150741044143598", - "idx": 20, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5150741044143598", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 48, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 55, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 61, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ASAP", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advmod", - "lemma_": "ASAP", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 85, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 88, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 93, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leevi", - "idx": 96, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Leevi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hasti", - "idx": 102, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Hasti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 107, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Niger", - "Lowercase": false, - "Template#": 10 - } - }, - { - "full_text": "Marisa shouted at Martin: \"What are you doing here?\"", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Marisa", - "start_position": 0, - "end_position": 6 - }, - { - "entity_type": "PERSON", - "entity_value": "Martin", - "start_position": 18, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "Marisa", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Marisa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shouted", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "shout", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Martin", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Martin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 24, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 26, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 27, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 32, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 36, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "doing", - "idx": 40, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 46, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 50, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 51, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Lebanon", - "Lowercase": false, - "Template#": 122 - } - }, - { - "full_text": "WHAT ??? I DONT KNOW WHAT TO PRESS NEXT!!! ? !! ?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "WHAT", - "idx": 0, - "tag_": "WDT", - "pos_": "DET", - "dep_": "ROOT", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 5, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 6, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 7, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "DONT", - "idx": 11, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "dont", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "KNOW", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "dobj", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "WHAT", - "idx": 21, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TO", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PRESS", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "press", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "NEXT", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 41, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 48, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Uk", - "Lowercase": false, - "Template#": 34 - } - }, - { - "full_text": "I want to increase limit on my card # 5361238925377564 for certain duration of time. is it possible?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5361238925377564", - "start_position": 38, - "end_position": 54 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "increase", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "increase", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 28, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 36, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5361238925377564", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "5361238925377564", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 55, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "certain", - "idx": 59, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "certain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "duration", - "idx": 67, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "duration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "time", - "idx": 79, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "time", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 83, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 85, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 88, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "possible", - "idx": 91, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "possible", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Finnish", - "Country": "Australia", - "Lowercase": false, - "Template#": 0 - } - }, - { - "full_text": "Sometimes people call me Giovanna", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Giovanna", - "start_position": 25, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "Sometimes", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sometimes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "people", - "idx": 10, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "people", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 17, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Giovanna", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "Giovanna", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Uruguay", - "Lowercase": false, - "Template#": 74 - } - }, - { - "full_text": "Need to see last 10 transaction of card 5114430119534676", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5114430119534676", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10", - "idx": 17, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transaction", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5114430119534676", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5114430119534676", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Croatian", - "Country": "Yemen", - "Lowercase": false, - "Template#": 9 - } - }, - { - "full_text": "Anes Ivarsson from John F. Lawhon is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Anes Ivarsson", - "start_position": 0, - "end_position": 13 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "John F. Lawhon", - "start_position": 19, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "Anes", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Anes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ivarsson", - "idx": 5, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Ivarsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 14, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "John", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "John", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "F.", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "F.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lawhon", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Lawhon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 34, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 37, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 41, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Turkey", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "My card 5575150694585602 expires soon � when will I get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5575150694585602", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5575150694585602", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5575150694585602", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hispanic", - "Country": "Andorra", - "Lowercase": false, - "Template#": 14 - } - }, - { - "full_text": "Spartacus is a very sympathetic person. He's also a good listener", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Spartacus", - "start_position": 0, - "end_position": 9 - } - ], - "tokens": [ - { - "text": "Spartacus", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Spartacus", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 10, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 13, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 15, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sympathetic", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "sympathetic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "person", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "He", - "idx": 40, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 42, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 45, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 50, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "good", - "idx": 52, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "good", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listener", - "idx": 57, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "listener", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Malta", - "Lowercase": false, - "Template#": 87 - } - }, - { - "full_text": "I once lived in 52 Broomfield Place, STONEHOUSE NE496LA. I now live in 2858 Pearlman Avenue, Billerica 01821", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "52 Broomfield Place, STONEHOUSE NE496LA", - "start_position": 16, - "end_position": 55 - }, - { - "entity_type": "LOCATION", - "entity_value": "2858 Pearlman Avenue, Billerica 01821", - "start_position": 71, - "end_position": 108 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "52", - "idx": 16, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "52", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Broomfield", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Broomfield", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Place", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 35, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "STONEHOUSE", - "idx": 37, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "STONEHOUSE", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "NE496LA", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "NE496LA", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 55, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 59, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 63, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2858", - "idx": 71, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2858", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pearlman", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Pearlman", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Avenue", - "idx": 85, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Avenue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 91, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Billerica", - "idx": 93, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Billerica", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "01821", - "idx": 103, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "01821", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Senegal", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "My nam is Leif", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Leif", - "start_position": 10, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nam", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "nam", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leif", - "idx": 10, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Leif", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "Saudi Arabia", - "Lowercase": false, - "Template#": 56 - } - }, - { - "full_text": "have you heard Leah Mitchell speak yet?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Leah Mitchell", - "start_position": 15, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heard", - "idx": 9, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "hear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leah", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Leah", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mitchell", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Mitchell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 29, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yet", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "yet", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Scottish", - "Country": "Tajikistan", - "Lowercase": false, - "Template#": 91 - } - }, - { - "full_text": "From the film American graffiti (also features Keijo Hänninen. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Keijo Hänninen", - "start_position": 47, - "end_position": 61 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Keijo", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Keijo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hänninen", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Hänninen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 61, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 63, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 67, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 70, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 74, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 77, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Tanzania", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "How do I change the address linked to my credit card to Kringlan 66, Reykjavík 107?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Kringlan 66, Reykjavík 107", - "start_position": 56, - "end_position": 82 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "linked", - "idx": 28, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "link", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 38, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 48, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 53, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kringlan", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Kringlan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "66", - "idx": 65, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "66", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 67, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Reykjavík", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Reykjavík", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "107", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "107", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 82, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "Turkey", - "Lowercase": false, - "Template#": 19 - } - }, - { - "full_text": "The name in the account is not correct, please change it to Alexandra Dalgety", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Alexandra Dalgety", - "start_position": 60, - "end_position": 77 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 9, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 24, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 27, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 31, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 40, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 47, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 54, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Alexandra", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Alexandra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dalgety", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Dalgety", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Belgium", - "Lowercase": false, - "Template#": 46 - } - }, - { - "full_text": "From the film American graffiti (also features Helena Carlsen. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Helena Carlsen", - "start_position": 47, - "end_position": 61 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Helena", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Helena", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carlsen", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Carlsen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 61, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 63, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 67, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 70, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 74, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 77, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "India", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "I once lived in Plattenstrasse 33, Randa 3928. I now live in Ramselsesteenweg 328, Lillo 2040", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Plattenstrasse 33, Randa 3928", - "start_position": 16, - "end_position": 45 - }, - { - "entity_type": "LOCATION", - "entity_value": "Ramselsesteenweg 328, Lillo 2040", - "start_position": 61, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Plattenstrasse", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Plattenstrasse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "33", - "idx": 31, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "33", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 33, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Randa", - "idx": 35, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Randa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3928", - "idx": 41, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3928", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 47, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 49, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 53, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 58, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ramselsesteenweg", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ramselsesteenweg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "328", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "328", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 81, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lillo", - "idx": 83, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Lillo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2040", - "idx": 89, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2040", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "My IBAN is IL270126100000000544211", - "masked": null, - "spans": [ - { - "entity_type": "IBAN", - "entity_value": "IL270126100000000544211", - "start_position": 11, - "end_position": 34 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IBAN", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "IBAN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IL270126100000000544211", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "IL270126100000000544211", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-IBAN" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Jordan", - "Lowercase": false, - "Template#": 79 - } - }, - { - "full_text": "you said your email is yahyaeriksson@gustr.com. is that correct?", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "yahyaeriksson@gustr.com", - "start_position": 23, - "end_position": 46 - } - ], - "tokens": [ - { - "text": "you", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 4, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 20, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yahyaeriksson@gustr.com", - "idx": 23, - "tag_": "ADD", - "pos_": "X", - "dep_": "attr", - "lemma_": "yahyaeriksson@gustr.com", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 48, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 51, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 56, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 63, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Kurdistan", - "Lowercase": true, - "Template#": 60 - } - }, - { - "full_text": "Will my account stay active? It's under my partner's name Hana Bláhová", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Hana Bláhová", - "start_position": 58, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "Will", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 5, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stay", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "stay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "active", - "idx": 21, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "active", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 31, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "partner", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "partner", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 50, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 53, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hana", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Hana", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bláhová", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Bláhová", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Namibia", - "Lowercase": false, - "Template#": 39 - } - }, - { - "full_text": "How can we reach you? You can call 907-882-3534", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "907-882-3534", - "start_position": 35, - "end_position": 47 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reach", - "idx": 11, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "reach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 20, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 26, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 30, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "907", - "idx": 35, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "907", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 38, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "882", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "882", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 42, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3534", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "3534", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Thailand", - "Lowercase": false, - "Template#": 68 - } - }, - { - "full_text": "card number 5396108709524468 is lost, can you please send a new one to Lääne 64, Liivaküla 46218 i am in Liivaküla for a business trip", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5396108709524468", - "start_position": 12, - "end_position": 28 - }, - { - "entity_type": "LOCATION", - "entity_value": "Lääne 64, Liivaküla 46218", - "start_position": 71, - "end_position": 96 - }, - { - "entity_type": "LOCATION", - "entity_value": "Liivaküla", - "start_position": 105, - "end_position": 114 - } - ], - "tokens": [ - { - "text": "card", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5396108709524468", - "idx": 12, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5396108709524468", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 32, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 36, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 46, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lääne", - "idx": 71, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advcl", - "lemma_": "Lääne", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "64", - "idx": 77, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "64", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 79, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Liivaküla", - "idx": 81, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Liivaküla", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "46218", - "idx": 91, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "46218", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 97, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "am", - "idx": 99, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 102, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Liivaküla", - "idx": 105, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Liivaküla", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 115, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 119, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "business", - "idx": 121, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "trip", - "idx": 130, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "trip", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "South-America", - "Lowercase": false, - "Template#": 29 - } - }, - { - "full_text": "The true gender of Innocent has been under debate for years, but the riff and building energy is a rock masterpiece regardless.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Innocent", - "start_position": 19, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "true", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "true", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gender", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "gender", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Innocent", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Innocent", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 28, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 32, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 37, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "debate", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "debate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "years", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 59, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 61, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 65, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "riff", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "riff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 74, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "building", - "idx": 78, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "building", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "energy", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "energy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 94, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 97, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rock", - "idx": 99, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rock", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masterpiece", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "masterpiece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regardless", - "idx": 116, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "regardless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 126, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Tajikistan", - "Lowercase": false, - "Template#": 94 - } - }, - { - "full_text": "On 29 March 2017, the Bosnian government formally began the process of withdrawal by invoking Article 50 of the Treaty on European Union", - "masked": null, - "spans": [ - { - "entity_type": "NATIONALITY", - "entity_value": "Bosnian", - "start_position": 22, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "On", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "29", - "idx": 3, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "29", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "March", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "March", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2017", - "idx": 12, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2017", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 16, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bosnian", - "idx": 22, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "bosnian", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "government", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "government", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "formally", - "idx": 41, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "formally", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "began", - "idx": 50, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "begin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 56, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "process", - "idx": 60, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "process", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdrawal", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "withdrawal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 82, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invoking", - "idx": 85, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "invoke", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Article", - "idx": 94, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Article", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "50", - "idx": 102, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "50", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 105, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 108, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Treaty", - "idx": 112, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Treaty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "European", - "idx": 122, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "European", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Union", - "idx": 131, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Union", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-NATIONALITY", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "Fiji", - "Lowercase": false, - "Template#": 121 - } - }, - { - "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "CAN", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "CAN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SPEAK", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TO", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 15, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "REAL", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "real", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PERSON", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 28, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 30, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Malawi", - "Lowercase": false, - "Template#": 44 - } - }, - { - "full_text": "Bot: What's the name on the account? User: Samira Panina", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Samira Panina", - "start_position": 43, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Bot", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 3, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 5, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 9, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 24, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "User", - "idx": 37, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 41, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Samira", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Samira", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Panina", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Panina", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Senegal", - "Lowercase": false, - "Template#": 42 - } - }, - { - "full_text": "The Home Centers Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Dominica", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Home Centers", - "start_position": 4, - "end_position": 16 - }, - { - "entity_type": "LOCATION", - "entity_value": "Dominica", - "start_position": 166, - "end_position": 174 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Home", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Centers", - "idx": 9, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Centers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Orchestra", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubjpass", - "lemma_": "Orchestra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 27, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founded", - "idx": 31, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "found", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1929", - "idx": 42, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1929", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Since", - "idx": 48, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "since", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "then", - "idx": 54, - "tag_": "RB", - "pos_": "ADV", - "dep_": "pcomp", - "lemma_": "then", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 58, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 60, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TSO", - "idx": 64, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "TSO", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 68, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 72, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 78, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 83, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "volunteer", - "idx": 85, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "volunteer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "community", - "idx": 95, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "community", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "orchestra", - "idx": 105, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "orchestra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 115, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 118, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fully", - "idx": 120, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "fully", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "professional", - "idx": 126, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "professional", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "orchestra", - "idx": 139, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "orchestra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serving", - "idx": 149, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Southern", - "idx": 157, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Southern", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dominica", - "idx": 166, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Dominica", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Dominica", - "Lowercase": false, - "Template#": 115 - } - }, - { - "full_text": "What is the limit for card 4539339028467490?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4539339028467490", - "start_position": 27, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 8, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4539339028467490", - "idx": 27, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4539339028467490", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Maldives", - "Lowercase": false, - "Template#": 54 - } - }, - { - "full_text": "When they weren't singing about Hobbits, satanic felines and interstellar journeys, they were singing about the verses from Sandra Bayer's Cautionary Tales. Is there a better example of unbridled creativity than early Bayer?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Sandra Bayer", - "start_position": 124, - "end_position": 136 - }, - { - "entity_type": "PERSON", - "entity_value": "Bayer", - "start_position": 218, - "end_position": 223 - } - ], - "tokens": [ - { - "text": "When", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 10, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 14, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "singing", - "idx": 18, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "singe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hobbits", - "idx": 32, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Hobbits", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "satanic", - "idx": 41, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "satanic", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "felines", - "idx": 49, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "feline", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 57, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "interstellar", - "idx": 61, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "interstellar", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "journeys", - "idx": 74, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "journey", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 82, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 84, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 89, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "singing", - "idx": 94, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "singe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 102, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 108, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verses", - "idx": 112, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sandra", - "idx": 124, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sandra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bayer", - "idx": 131, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Bayer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 136, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cautionary", - "idx": 139, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "cautionary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tales", - "idx": 150, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Tales", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 155, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Is", - "idx": 157, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 160, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 166, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "better", - "idx": 168, - "tag_": "JJR", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "well", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 175, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 183, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unbridled", - "idx": 186, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "unbridled", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "creativity", - "idx": 196, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "creativity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "than", - "idx": 207, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "than", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "early", - "idx": 212, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bayer", - "idx": 218, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Bayer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 223, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "German", - "Country": "Azerbaijan", - "Lowercase": false, - "Template#": 101 - } - }, - { - "full_text": "What is procedure to redeem points won on credit card 5362422858009589 transactions ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5362422858009589", - "start_position": 54, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "procedure", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "procedure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 18, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "redeem", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "redeem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 28, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "won", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "win", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5362422858009589", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5362422858009589", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transactions", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "North Korea", - "Lowercase": false, - "Template#": 13 - } - }, - { - "full_text": "Who's coming to Germany with me?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Germany", - "start_position": 16, - "end_position": 23 - } - ], - "tokens": [ - { - "text": "Who", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "who", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 3, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "coming", - "idx": 6, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "come", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Germany", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Germany", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 24, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "Germany", - "Lowercase": false, - "Template#": 23 - } - }, - { - "full_text": "On Cue is the brainchild of our 3 founders: Leidy Muris, Aston Lind and Wacława Sobczak. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "On Cue", - "start_position": 0, - "end_position": 6 - }, - { - "entity_type": "PERSON", - "entity_value": "Leidy Muris", - "start_position": 44, - "end_position": 55 - }, - { - "entity_type": "PERSON", - "entity_value": "Aston Lind", - "start_position": 57, - "end_position": 67 - }, - { - "entity_type": "PERSON", - "entity_value": "Wacława Sobczak", - "start_position": 72, - "end_position": 87 - } - ], - "tokens": [ - { - "text": "On", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cue", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Cue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brainchild", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "brainchild", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 28, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3", - "idx": 32, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founders", - "idx": 34, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "founder", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 42, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leidy", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Leidy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Muris", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Muris", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 55, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Aston", - "idx": 57, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Aston", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lind", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Lind", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 68, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Wacława", - "idx": 72, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Wacława", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sobczak", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Sobczak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 87, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 89, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 99, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "born", - "idx": 103, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 108, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 112, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beach", - "idx": 116, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 121, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 123, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 129, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 134, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "constructing", - "idx": 139, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "construct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 152, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 154, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 162, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 165, - "tag_": "VB", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 168, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "basis", - "idx": 172, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "basis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 178, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "another", - "idx": 181, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "another", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "start", - "idx": 189, - "tag_": "VB", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "start", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 194, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 195, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 198, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 202, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Liechtenstein", - "Lowercase": false, - "Template#": 117 - } - }, - { - "full_text": "can i withdraw cash using my card 5560986528159420 at atm center ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5560986528159420", - "start_position": 34, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdraw", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "withdraw", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cash", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "cash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "using", - "idx": 20, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "use", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 26, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5560986528159420", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5560986528159420", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "atm", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "atm", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "center", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "center", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 65, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Mexico", - "Lowercase": true, - "Template#": 18 - } - }, - { - "full_text": "Houžvičková spent a year at Eli Moore Inc as the assistant to Květoslava Houžvičková, and the following year at The White Rabbit in Halfway House, which later became Integra Wealth Planners in 1965.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Houžvičková", - "start_position": 0, - "end_position": 11 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Eli Moore Inc", - "start_position": 28, - "end_position": 41 - }, - { - "entity_type": "PERSON", - "entity_value": "Květoslava Houžvičková", - "start_position": 62, - "end_position": 84 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "The White Rabbit", - "start_position": 112, - "end_position": 128 - }, - { - "entity_type": "LOCATION", - "entity_value": "Halfway House", - "start_position": 132, - "end_position": 145 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Integra Wealth Planners", - "start_position": 166, - "end_position": 189 - } - ], - "tokens": [ - { - "text": "Houžvičková", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Houžvičková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "spent", - "idx": 12, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "spend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Eli", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Eli", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Moore", - "idx": 32, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Moore", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Inc", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Inc", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "assistant", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "assistant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 59, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Květoslava", - "idx": 62, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Květoslava", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Houžvičková", - "idx": 73, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Houžvičková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 84, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 86, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "following", - "idx": 94, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "following", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 112, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "White", - "idx": 116, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "White", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rabbit", - "idx": 122, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Rabbit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 129, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Halfway", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Halfway", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "House", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "House", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 145, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "which", - "idx": 147, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "which", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "later", - "idx": 153, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "later", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 159, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Integra", - "idx": 166, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Integra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Wealth", - "idx": 174, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Wealth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Planners", - "idx": 181, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Planners", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 190, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1965", - "idx": 193, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1965", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 197, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Rwanda", - "Lowercase": false, - "Template#": 123 - } - }, - { - "full_text": "What are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Romania", - "Lowercase": false, - "Template#": 40 - } - }, - { - "full_text": "the jolly farmer is the brainchild of our 3 founders: george schutt, daniela jager and zahra mattsson. the idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "the jolly farmer", - "start_position": 0, - "end_position": 16 - }, - { - "entity_type": "PERSON", - "entity_value": "george schutt", - "start_position": 54, - "end_position": 67 - }, - { - "entity_type": "PERSON", - "entity_value": "daniela jager", - "start_position": 69, - "end_position": 82 - }, - { - "entity_type": "PERSON", - "entity_value": "zahra mattsson", - "start_position": 87, - "end_position": 101 - } - ], - "tokens": [ - { - "text": "the", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jolly", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "jolly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "farmer", - "idx": 10, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "farmer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 17, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 20, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brainchild", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "brainchild", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 38, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3", - "idx": 42, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founders", - "idx": 44, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "founder", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 52, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "george", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "george", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "schutt", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "schutt", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 67, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "daniela", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "daniela", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jager", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "jager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 83, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "zahra", - "idx": 87, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "zahra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mattsson", - "idx": 93, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "mattsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 101, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 103, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 104, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 108, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 113, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "born", - "idx": 117, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 122, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 123, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 126, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beach", - "idx": 130, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 135, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 137, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 143, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 148, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "constructing", - "idx": 153, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "construct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 166, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 168, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 176, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 179, - "tag_": "VB", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 182, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "basis", - "idx": 186, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "basis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 192, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "another", - "idx": 195, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "another", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "start", - "idx": 203, - "tag_": "VB", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "start", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 208, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 209, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 212, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 216, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "California", - "Lowercase": true, - "Template#": 117 - } - }, - { - "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Petosino: Steak And Ale, Rainbow Life and Hudson'S Menswear. \"Don't feed me planned obsolescence,\" says Sarah Friis in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Petosino", - "start_position": 132, - "end_position": 140 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Steak And Ale", - "start_position": 142, - "end_position": 155 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Rainbow Life", - "start_position": 157, - "end_position": 169 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Hudson'S Menswear", - "start_position": 174, - "end_position": 191 - }, - { - "entity_type": "PERSON", - "entity_value": "Sarah Friis", - "start_position": 236, - "end_position": 247 - } - ], - "tokens": [ - { - "text": "\"", - "idx": 0, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "ROOT", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 1, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "big", - "idx": 5, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "three", - "idx": 9, - "tag_": "CD", - "pos_": "NUM", - "dep_": "intj", - "lemma_": "three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 14, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Big", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Three", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Killed", - "idx": 33, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "kill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Baby", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Baby", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 48, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "car", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "car", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manufacturers", - "idx": 60, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "manufacturer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 74, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "dominate", - "idx": 79, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "dominate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 88, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "economy", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "economy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "White", - "idx": 107, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "White", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stripes", - "idx": 113, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Stripes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 120, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "home", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "city", - "idx": 127, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "city", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Petosino", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Petosino", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 140, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Steak", - "idx": 142, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Steak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "And", - "idx": 148, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ale", - "idx": 152, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Ale", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 155, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rainbow", - "idx": 157, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rainbow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Life", - "idx": 165, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Life", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 170, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hudson", - "idx": 174, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Hudson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 180, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "'S", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Menswear", - "idx": 183, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Menswear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 191, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 193, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Do", - "idx": 194, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 196, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "feed", - "idx": 200, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "feed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 205, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "planned", - "idx": 208, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "plan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "obsolescence", - "idx": 216, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "obsolescence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 228, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 229, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "says", - "idx": 231, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sarah", - "idx": 236, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sarah", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Friis", - "idx": 242, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Friis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 248, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 251, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "uncharacteristically", - "idx": 254, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "uncharacteristically", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "political", - "idx": 275, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "political", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 285, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 289, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lamenting", - "idx": 291, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lament", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 301, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "demise", - "idx": 305, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "demise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 312, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 315, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unions", - "idx": 319, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "union", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 326, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 329, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "60s", - "idx": 333, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "60", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 336, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Honduras", - "Lowercase": false, - "Template#": 112 - } - }, - { - "full_text": "I'm originally from Africa", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Africa", - "start_position": 20, - "end_position": 26 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "originally", - "idx": 4, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "originally", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Africa", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Africa", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Africa", - "Lowercase": false, - "Template#": 21 - } - }, - { - "full_text": "Need to see last 10 transaction of card 5146382051951404", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5146382051951404", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "last", - "idx": 12, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "last", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10", - "idx": 17, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "10", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transaction", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5146382051951404", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5146382051951404", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "Namibia", - "Lowercase": false, - "Template#": 9 - } - }, - { - "full_text": "Maryam Arsanukayev from Omni Tech Solutions is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Maryam Arsanukayev", - "start_position": 0, - "end_position": 18 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Omni Tech Solutions", - "start_position": 24, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "Maryam", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Maryam", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Arsanukayev", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Arsanukayev", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 19, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Omni", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Omni", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tech", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Tech", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Solutions", - "idx": 34, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Solutions", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 44, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 47, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 51, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 59, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Gambia", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "This song by ex-Zombie MacMahon is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "MacMahon", - "start_position": 23, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "MacMahon", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "MacMahon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 32, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 35, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 37, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 45, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 53, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 56, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 64, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 70, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 74, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 86, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 89, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 93, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 99, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 102, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 107, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 111, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 113, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 116, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 125, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 131, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 134, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 139, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 144, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 149, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 156, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 159, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 162, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 169, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 172, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 174, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 178, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 180, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 185, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 189, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 195, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 200, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 202, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Romania", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid,\" according to the Exact Solutions website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Exact Solutions", - "start_position": 257, - "end_position": 272 - } - ], - "tokens": [ - { - "text": "Mission", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mission", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Statement", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 17, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "This", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "non", - "idx": 24, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "non", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "profit", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "profit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founded", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "found", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 43, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "radio", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "radio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "executives", - "idx": 52, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "executive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 63, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serves", - "idx": 64, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 71, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "advocate", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "advocate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 86, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "value", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "value", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 108, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 110, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 114, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "supports", - "idx": 115, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "support", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 124, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 128, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 139, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "composers", - "idx": 141, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "composer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 151, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "publishers", - "idx": 155, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "publisher", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 166, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taking", - "idx": 169, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "care", - "idx": 176, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "care", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 181, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 184, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "important", - "idx": 187, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "important", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aspect", - "idx": 197, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "aspect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 204, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "their", - "idx": 207, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "careers", - "idx": 213, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "career", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 221, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "aux", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 223, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 225, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "auxpass", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "paid", - "idx": 233, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 237, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 238, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "according", - "idx": 240, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "prep", - "lemma_": "accord", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 250, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 253, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Exact", - "idx": 257, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Exact", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Solutions", - "idx": 263, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Solutions", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 273, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 280, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "They", - "idx": 282, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "offer", - "idx": 287, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "offer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blanket", - "idx": 293, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "blanket", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 301, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "licenses", - "idx": 307, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "license", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 316, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "businesses", - "idx": 319, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 330, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "organizations", - "idx": 334, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "organization", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 348, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 353, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "them", - "idx": 359, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 364, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "play", - "idx": 367, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "play", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nearly", - "idx": 372, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "nearly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "13", - "idx": 379, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "13", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 382, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 390, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "works", - "idx": 398, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 403, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Saudi Arabia", - "Lowercase": false, - "Template#": 114 - } - }, - { - "full_text": "I would like to remove my kid Ryley from the will. How do I do that?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ryley", - "start_position": 30, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "remove", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "remove", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kid", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "kid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ryley", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Ryley", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 41, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 45, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "How", - "idx": 51, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 55, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 58, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 60, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Hungary", - "Lowercase": false, - "Template#": 45 - } - }, - { - "full_text": "You said your email is VictorAndreyev@cuvox.de. Is that correct?", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "VictorAndreyev@cuvox.de", - "start_position": 23, - "end_position": 46 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 4, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 20, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "VictorAndreyev@cuvox.de", - "idx": 23, - "tag_": "ADD", - "pos_": "X", - "dep_": "attr", - "lemma_": "victorandreyev@cuvox.de", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Is", - "idx": 48, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 51, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 56, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 63, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Israel", - "Lowercase": false, - "Template#": 60 - } - }, - { - "full_text": "My IBAN is IL270126100000000544211", - "masked": null, - "spans": [ - { - "entity_type": "IBAN", - "entity_value": "IL270126100000000544211", - "start_position": 11, - "end_position": 34 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IBAN", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "IBAN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IL270126100000000544211", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "IL270126100000000544211", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-IBAN" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Vatican City", - "Lowercase": false, - "Template#": 79 - } - }, - { - "full_text": "Unlike the Raisová novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Raisová", - "start_position": 11, - "end_position": 18 - } - ], - "tokens": [ - { - "text": "Unlike", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "unlike", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Raisová", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Raisová", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "novel", - "idx": 19, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "novel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 24, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 26, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 28, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 31, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "necrophilia", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "necrophilia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 54, - "tag_": "WP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 59, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 62, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 65, - "tag_": "IN", - "pos_": "ADP", - "dep_": "acomp", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 70, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 72, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "suppose", - "idx": 74, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 82, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "anyone", - "idx": 85, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "anyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 91, - "tag_": "POS", - "pos_": "PART", - "dep_": "auxpass", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "guess", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "guess", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 101, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brilliant", - "idx": 103, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "brilliant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "piece", - "idx": 113, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "piece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "baroque", - "idx": 122, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "baroque", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pop", - "idx": 130, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "pop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 133, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Belgium", - "Lowercase": false, - "Template#": 96 - } - }, - { - "full_text": "I've shared files with you ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 27, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'ve", - "idx": 1, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shared", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "files", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "file", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Yugoslavia", - "Lowercase": false, - "Template#": 80 - } - }, - { - "full_text": "Bot: What's the name on the account? User: Ludvig Rosing", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ludvig Rosing", - "start_position": 43, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Bot", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 3, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 5, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 9, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 24, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 35, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "User", - "idx": 37, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 41, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ludvig", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ludvig", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rosing", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Rosing", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Greenland", - "Country": "Algeria", - "Lowercase": false, - "Template#": 42 - } - }, - { - "full_text": "The name in the account is not correct, please change it to Philip Jessen", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Philip Jessen", - "start_position": 60, - "end_position": 73 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 9, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 24, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 27, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 31, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 40, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 47, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 54, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Philip", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Philip", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jessen", - "idx": 67, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Jessen", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Sudan", - "Lowercase": false, - "Template#": 46 - } - }, - { - "full_text": "I want to cancel my card 5157882564763630 because I lost it", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5157882564763630", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5157882564763630", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5157882564763630", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "because", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "because", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 50, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 52, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Sri Lanka", - "Lowercase": false, - "Template#": 52 - } - }, - { - "full_text": "zoolander is a 2001 american action-comedy film directed by temirbek masaev and starring masaev", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "temirbek masaev", - "start_position": 60, - "end_position": 75 - }, - { - "entity_type": "PERSON", - "entity_value": "masaev", - "start_position": 89, - "end_position": 95 - } - ], - "tokens": [ - { - "text": "zoolander", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "zoolander", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 10, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 13, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2001", - "idx": 15, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2001", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "american", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "action", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "action", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 35, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "comedy", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "comedy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "directed", - "idx": 48, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "direct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "temirbek", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "temirbek", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masaev", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "masaev", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 76, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "starring", - "idx": 80, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "star", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masaev", - "idx": 89, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "masaev", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Dominica", - "Lowercase": true, - "Template#": 119 - } - }, - { - "full_text": "I once lived in 1541 Wit Rd, Johannesburg 2051. I now live in Avenida Noruega 42, Vila Real 5000-047", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "1541 Wit Rd, Johannesburg 2051", - "start_position": 16, - "end_position": 46 - }, - { - "entity_type": "LOCATION", - "entity_value": "Avenida Noruega 42, Vila Real 5000-047", - "start_position": 62, - "end_position": 100 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1541", - "idx": 16, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1541", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Wit", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Wit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rd", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Rd", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Johannesburg", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Johannesburg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "2051", - "idx": 42, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "2051", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 48, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 50, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 54, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 59, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Avenida", - "idx": 62, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Avenida", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Noruega", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Noruega", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "42", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "42", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 80, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Vila", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Vila", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Real", - "idx": 87, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "amod", - "lemma_": "Real", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5000", - "idx": 92, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5000", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 96, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "047", - "idx": 97, - "tag_": "CD", - "pos_": "NUM", - "dep_": "ROOT", - "lemma_": "047", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Japan", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "Hello I moved, please update my new address is Via Torino 24, Bobbio 29022", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Via Torino 24, Bobbio 29022", - "start_position": 47, - "end_position": 74 - } - ], - "tokens": [ - { - "text": "Hello", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "hello", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "moved", - "idx": 8, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "move", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 13, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 15, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "update", - "idx": 22, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "update", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 44, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Via", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "prep", - "lemma_": "Via", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Torino", - "idx": 51, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Torino", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "24", - "idx": 58, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "24", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 60, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bobbio", - "idx": 62, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Bobbio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "29022", - "idx": 69, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "29022", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Us", - "Lowercase": false, - "Template#": 47 - } - }, - { - "full_text": "Please update billing addrress with Ööbiku 86, Kõrkküla 48209 for this card: 4716540377180213", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Ööbiku 86, Kõrkküla 48209", - "start_position": 36, - "end_position": 61 - }, - { - "entity_type": "CREDIT_CARD", - "entity_value": "4716540377180213", - "start_position": 77, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "update", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "update", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 14, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "bill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addrress", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "addrress", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 31, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ööbiku", - "idx": 36, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ööbiku", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "86", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "86", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 45, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kõrkküla", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Kõrkküla", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "48209", - "idx": 56, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "48209", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 62, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 66, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 75, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4716540377180213", - "idx": 77, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "4716540377180213", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Liechtenstein", - "Lowercase": false, - "Template#": 8 - } - }, - { - "full_text": "How do I check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "Panama", - "Lowercase": false, - "Template#": 15 - } - }, - { - "full_text": "Are there any charges applied for money transfer from IL270126100000000544211 to other bank accounts", - "masked": null, - "spans": [ - { - "entity_type": "IBAN", - "entity_value": "IL270126100000000544211", - "start_position": 54, - "end_position": 77 - } - ], - "tokens": [ - { - "text": "Are", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 4, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "any", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "any", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "charges", - "idx": 14, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "charge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "applied", - "idx": 22, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "apply", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 30, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "money", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "money", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 49, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IL270126100000000544211", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "IL270126100000000544211", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 78, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "other", - "idx": 81, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "other", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bank", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "bank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "accounts", - "idx": 92, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-IBAN", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Slovenian", - "Country": "Republic Of Ireland", - "Lowercase": false, - "Template#": 5 - } - }, - { - "full_text": "Is there a better crafted pop song on this list? Ferrari and Belyakova were precision engineers.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ferrari", - "start_position": 49, - "end_position": 56 - }, - { - "entity_type": "PERSON", - "entity_value": "Belyakova", - "start_position": 61, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "Is", - "idx": 0, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 3, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 9, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "better", - "idx": 11, - "tag_": "RBR", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "better", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "crafted", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "craft", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pop", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "pop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 38, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ferrari", - "idx": 49, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Ferrari", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 57, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Belyakova", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Belyakova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 71, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "precision", - "idx": 76, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "precision", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "engineers", - "idx": 86, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "engineer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 95, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "U-PERSON", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Australia", - "Lowercase": false, - "Template#": 98 - } - }, - { - "full_text": "my card 5585347258074035 expires soon � when will i get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5585347258074035", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5585347258074035", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5585347258074035", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Israel", - "Lowercase": true, - "Template#": 14 - } - }, - { - "full_text": "Please charge my credit card. Number is 4556248225668263", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4556248225668263", - "start_position": 40, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "charge", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "charge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 14, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 28, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Number", - "idx": 30, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4556248225668263", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "4556248225668263", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Canada", - "Lowercase": false, - "Template#": 63 - } - }, - { - "full_text": "I can't browse to your site, keep getting address blocked error", - "masked": null, - "spans": [ - { - "entity_type": "IP_ADDRESS", - "entity_value": "", - "start_position": 50, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ca", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 4, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "browse", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "browse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 18, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "site", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "site", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keep", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "keep", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 34, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 50, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blocked", - "idx": 51, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "error", - "idx": 59, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "error", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "America", - "Lowercase": false, - "Template#": 31 - } - }, - { - "full_text": "I have lost my card 4532964794362281. Could you please block my credit card ASAP ? , My name is Carolina Lombardi.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4532964794362281", - "start_position": 20, - "end_position": 36 - }, - { - "entity_type": "PERSON", - "entity_value": "Carolina Lombardi", - "start_position": 96, - "end_position": 113 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4532964794362281", - "idx": 20, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4532964794362281", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 48, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 55, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 61, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ASAP", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advmod", - "lemma_": "ASAP", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 85, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 88, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 93, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carolina", - "idx": 96, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Carolina", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lombardi", - "idx": 105, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Lombardi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 113, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Romania", - "Lowercase": false, - "Template#": 10 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' HarrisonBarnes@fleckens.hu", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "HarrisonBarnes@fleckens.hu", - "start_position": 59, - "end_position": 85 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "HarrisonBarnes@fleckens.hu", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "pobj", - "lemma_": "harrisonbarnes@fleckens.hu", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Moldova", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Kazakhstan. Producer Stine Kristoffersen explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Kazakhstan", - "start_position": 34, - "end_position": 44 - }, - { - "entity_type": "PERSON", - "entity_value": "Stine Kristoffersen", - "start_position": 55, - "end_position": 74 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kazakhstan", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Kazakhstan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stine", - "idx": 55, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Stine", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kristoffersen", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Kristoffersen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 75, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 85, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 88, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 93, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 95, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 97, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 98, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 101, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 105, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 111, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 120, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 123, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 131, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 133, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 138, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 144, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 148, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 153, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 155, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 161, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 164, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 169, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 173, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 177, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 179, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 182, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 185, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 187, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 190, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 194, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 199, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 209, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 215, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 218, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 222, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 227, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 229, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 234, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 239, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 243, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 246, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 253, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 260, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 263, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 267, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 273, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 276, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 280, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 283, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 288, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 294, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 299, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 303, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 309, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 312, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 316, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 318, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 326, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 335, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 339, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 341, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 345, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 351, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 356, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 357, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Kazakhstan", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "my credit card 4716838733446249 has been lost, can i request you to block it.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4716838733446249", - "start_position": 15, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 10, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4716838733446249", - "idx": 15, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4716838733446249", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 32, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 36, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 41, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 45, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 51, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 61, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 65, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 68, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 74, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 76, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Costa Rica", - "Lowercase": true, - "Template#": 1 - } - }, - { - "full_text": "my card 5419747092685536 is expiring this month. please let me know process to it's extend validity.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5419747092685536", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5419747092685536", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5419747092685536", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expiring", - "idx": 28, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 37, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "let", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "let", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "know", - "idx": 63, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "process", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "process", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 79, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 81, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "extend", - "idx": 84, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "extend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validity", - "idx": 91, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "validity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "Portugal", - "Lowercase": true, - "Template#": 11 - } - }, - { - "full_text": "what ??? i dont know what to press next!!! ? !! ?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "what", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "ROOT", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 5, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 6, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 7, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 11, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nt", - "idx": 13, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "know", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 21, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 26, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "press", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "press", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "next", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 41, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 46, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 48, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Indonesia", - "Lowercase": true, - "Template#": 34 - } - }, - { - "full_text": "Will my account stay active? It's under my partner's name Zita Gábor", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Zita Gábor", - "start_position": 58, - "end_position": 68 - } - ], - "tokens": [ - { - "text": "Will", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 5, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stay", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "stay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "active", - "idx": 21, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "active", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 31, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "partner", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "partner", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 50, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 53, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zita", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zita", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Gábor", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Gábor", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Zambia", - "Lowercase": false, - "Template#": 39 - } - }, - { - "full_text": "I would like to stop receiving messages to 026 848 14 90", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "026 848 14 90", - "start_position": 43, - "end_position": 56 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stop", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "stop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "receiving", - "idx": 21, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "receive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "messages", - "idx": 31, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "message", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "026", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "quantmod", - "lemma_": "026", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "848", - "idx": 47, - "tag_": "CD", - "pos_": "NUM", - "dep_": "quantmod", - "lemma_": "848", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 51, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "90", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "90", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Mongolia", - "Lowercase": false, - "Template#": 43 - } - }, - { - "full_text": "I work for Mervyn'S", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Mervyn'S", - "start_position": 11, - "end_position": 19 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mervyn", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mervyn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 17, - "tag_": "POS", - "pos_": "PART", - "dep_": "pobj", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "North-American", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "I work for S&W Cafeteria", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "S&W Cafeteria", - "start_position": 11, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "S&W", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "S&W", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cafeteria", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Cafeteria", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Egypt", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "Please block card no 4929921611032795", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929921611032795", - "start_position": 21, - "end_position": 37 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 13, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "no", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "no", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929921611032795", - "idx": 21, - "tag_": "CD", - "pos_": "NUM", - "dep_": "npadvmod", - "lemma_": "4929921611032795", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Togo", - "Lowercase": false, - "Template#": 53 - } - }, - { - "full_text": "I once lived in 39 Karaiskaki Sq, Ineia 8704. I now live in Fynshovedvej 33, Græsted 3230", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "39 Karaiskaki Sq, Ineia 8704", - "start_position": 16, - "end_position": 44 - }, - { - "entity_type": "LOCATION", - "entity_value": "Fynshovedvej 33, Græsted 3230", - "start_position": 60, - "end_position": 89 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "39", - "idx": 16, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "39", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Karaiskaki", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Karaiskaki", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sq", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Sq", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 32, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ineia", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Ineia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "8704", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "8704", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 44, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 46, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 48, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 52, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fynshovedvej", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Fynshovedvej", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "33", - "idx": 73, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "33", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 75, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Græsted", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Græsted", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3230", - "idx": 85, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3230", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "California", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "for my take on mr. yokoi, see guilty pleasures: 5 musicians of the 70s you're supposed to hate (but secretly love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "yokoi", - "start_position": 19, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "for", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "mr", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "mr", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "yokoi", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "yokoi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 24, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 26, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "guilty", - "idx": 30, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pleasures", - "idx": 37, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 46, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 48, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musicians", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 60, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 63, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 67, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 71, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 74, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "supposed", - "idx": 78, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 87, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hate", - "idx": 90, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 95, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 96, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "secretly", - "idx": 100, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 109, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 113, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Japanese (Anglicized)", - "Country": "Ukraine", - "Lowercase": true, - "Template#": 95 - } - }, - { - "full_text": "Rafaela is very reliable. You can always depend on him.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Rafaela", - "start_position": 0, - "end_position": 7 - } - ], - "tokens": [ - { - "text": "Rafaela", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Rafaela", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 11, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reliable", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "reliable", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 24, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 26, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 30, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "always", - "idx": 34, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "always", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "depend", - "idx": 41, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "depend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 48, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "him", - "idx": 51, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 54, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Vanuata", - "Lowercase": false, - "Template#": 88 - } - }, - { - "full_text": "card number 4532035534037416 is lost, can you please send a new one to Alšova 408, Pribyslav 58222 i am in Pribyslav for a business trip", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4532035534037416", - "start_position": 12, - "end_position": 28 - }, - { - "entity_type": "LOCATION", - "entity_value": "Alšova 408, Pribyslav 58222", - "start_position": 71, - "end_position": 98 - }, - { - "entity_type": "LOCATION", - "entity_value": "Pribyslav", - "start_position": 107, - "end_position": 116 - } - ], - "tokens": [ - { - "text": "card", - "idx": 0, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4532035534037416", - "idx": 12, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4532035534037416", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 32, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 36, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 46, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 68, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Alšova", - "idx": 71, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Alšova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "408", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "408", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 81, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pribyslav", - "idx": 83, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Pribyslav", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "58222", - "idx": 93, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "58222", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 99, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "am", - "idx": 101, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 104, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pribyslav", - "idx": 107, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Pribyslav", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 117, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 121, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "business", - "idx": 123, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "trip", - "idx": 132, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "trip", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Dutch", - "Country": "Suriname", - "Lowercase": false, - "Template#": 29 - } - }, - { - "full_text": "Rebeca Carvalho from Lawnscape Garden Maintenance is the keynote speaker", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Rebeca Carvalho", - "start_position": 0, - "end_position": 15 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Lawnscape Garden Maintenance", - "start_position": 21, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "Rebeca", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Rebeca", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carvalho", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Carvalho", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lawnscape", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lawnscape", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Garden", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Garden", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Maintenance", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Maintenance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 50, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 53, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "keynote", - "idx": 57, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "keynote", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaker", - "idx": 65, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "speaker", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Brazil", - "Country": "Rwanda", - "Lowercase": false, - "Template#": 82 - } - }, - { - "full_text": "Jaroslav is very reliable. You can always depend on him.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Jaroslav", - "start_position": 0, - "end_position": 8 - } - ], - "tokens": [ - { - "text": "Jaroslav", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jaroslav", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 9, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 12, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reliable", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "reliable", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 25, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 27, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 31, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "always", - "idx": 35, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "always", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "depend", - "idx": 42, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "depend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 49, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "him", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 55, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Tuvali", - "Lowercase": false, - "Template#": 88 - } - }, - { - "full_text": "Szymon Walczak listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Fernanda Ricci – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Szymon Walczak", - "start_position": 0, - "end_position": 14 - }, - { - "entity_type": "PERSON", - "entity_value": "Fernanda Ricci", - "start_position": 170, - "end_position": 184 - } - ], - "tokens": [ - { - "text": "Szymon", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Szymon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Walczak", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Walczak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 15, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 22, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 26, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 33, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 57, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 64, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 68, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 72, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 76, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 82, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 85, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 95, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 103, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 104, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 106, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 108, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 109, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 114, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 118, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 121, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 125, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 128, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 129, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 131, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 135, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 138, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 153, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 159, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 165, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 167, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fernanda", - "idx": 170, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fernanda", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ricci", - "idx": 179, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ricci", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 185, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 187, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 189, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 192, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 198, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "New Zealand", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "A tribute to Fábio Barros – sadly, she wasn't impressed.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Fábio Barros", - "start_position": 13, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "A", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 2, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fábio", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fábio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Barros", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Barros", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 28, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sadly", - "idx": 30, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sadly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 35, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "she", - "idx": 37, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 41, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 44, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "impressed", - "idx": 48, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "impressed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 57, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Ukraine", - "Lowercase": false, - "Template#": 100 - } - }, - { - "full_text": "You said your email is MathiasEJespersen@armyspy.com. Is that correct?", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "MathiasEJespersen@armyspy.com", - "start_position": 23, - "end_position": 52 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "said", - "idx": 4, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 20, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "MathiasEJespersen@armyspy.com", - "idx": 23, - "tag_": "ADD", - "pos_": "X", - "dep_": "attr", - "lemma_": "mathiasejespersen@armyspy.com", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Is", - "idx": 54, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 57, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 62, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 69, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "New Zealand", - "Lowercase": false, - "Template#": 60 - } - }, - { - "full_text": "What are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "South-America", - "Lowercase": false, - "Template#": 40 - } - }, - { - "full_text": "Blink-182 pay tribute here to the Togo. Producer Monica Monaldo explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Togo", - "start_position": 34, - "end_position": 38 - }, - { - "entity_type": "PERSON", - "entity_value": "Monica Monaldo", - "start_position": 49, - "end_position": 63 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Togo", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Togo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 38, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Monica", - "idx": 49, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Monica", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Monaldo", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Monaldo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 64, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 74, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 82, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 84, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 86, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 87, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 94, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 100, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 112, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 120, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 127, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 133, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 137, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 142, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 144, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 150, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 153, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 158, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 162, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 166, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 168, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 171, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 174, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 176, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 179, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 183, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 188, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 198, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 204, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 207, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 211, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 216, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 218, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 223, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 228, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 232, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 235, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 242, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 249, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 252, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 256, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 262, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 265, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 269, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 272, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 277, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 283, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 288, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 292, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 298, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 301, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 305, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 307, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 315, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 324, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 328, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 330, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 334, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 340, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 345, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 346, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Togo", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "Blink-182 pay tribute here to the United Arab Emirates. Producer Jaroslava Sedláčková explained to Fuse TV: \"We all liked the idea of writing a song about our state, where we live and love. To me it's the most beautiful place in the world, this song was us giving credit to how lucky we are to have lived here and grown up here, raising families here, the whole thing.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "United Arab Emirates", - "start_position": 34, - "end_position": 54 - }, - { - "entity_type": "PERSON", - "entity_value": "Jaroslava Sedláčková", - "start_position": 65, - "end_position": 85 - } - ], - "tokens": [ - { - "text": "Blink-182", - "idx": 0, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nummod", - "lemma_": "Blink-182", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pay", - "idx": 10, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "compound", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 22, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 30, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "United", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "United", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Arab", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Arab", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Emirates", - "idx": 46, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Emirates", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 54, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Producer", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "producer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Jaroslava", - "idx": 65, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Jaroslava", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sedláčková", - "idx": 75, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Sedláčková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "explained", - "idx": 86, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "explain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 96, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fuse", - "idx": 99, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TV", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "tv", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 106, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 108, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "We", - "idx": 109, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 112, - "tag_": "DT", - "pos_": "DET", - "dep_": "appos", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "liked", - "idx": 116, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 122, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 126, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 131, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 134, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 142, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 144, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 149, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 155, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "state", - "idx": 159, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "state", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 164, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 166, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 172, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 175, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 180, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 184, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 188, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 190, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 193, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 196, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 198, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 201, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 205, - "tag_": "RBS", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beautiful", - "idx": 210, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "beautiful", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "place", - "idx": 220, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "place", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 226, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 229, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 233, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 238, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 240, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 245, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 250, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "us", - "idx": 254, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "giving", - "idx": 257, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "give", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 264, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 271, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "how", - "idx": 274, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lucky", - "idx": 278, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "lucky", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 284, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 287, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "pcomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 291, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 294, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 299, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 305, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 310, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "grown", - "idx": 314, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "grow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 320, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 323, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 327, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "raising", - "idx": 329, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "raise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "families", - "idx": 337, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "family", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 346, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 350, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 352, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "whole", - "idx": 356, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "whole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "thing", - "idx": 362, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "thing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 367, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 368, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "United Arab Emirates", - "Lowercase": false, - "Template#": 108 - } - }, - { - "full_text": "I want to cancel my card 5474048302481945 because I lost it", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5474048302481945", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5474048302481945", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5474048302481945", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "because", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "because", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 50, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 52, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Ghana", - "Lowercase": false, - "Template#": 52 - } - }, - { - "full_text": "Can I withdraw cash using my card 5150741044143598 at aTM center ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5150741044143598", - "start_position": 34, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdraw", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "withdraw", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cash", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "cash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "using", - "idx": 20, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "use", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 26, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5150741044143598", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5150741044143598", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aTM", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "punct", - "lemma_": "aTM", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "center", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "center", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 65, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Niger", - "Lowercase": false, - "Template#": 18 - } - }, - { - "full_text": "I'm originally from Mauritania", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Mauritania", - "start_position": 20, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "originally", - "idx": 4, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "originally", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mauritania", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Mauritania", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Mauritania", - "Lowercase": false, - "Template#": 21 - } - }, - { - "full_text": "My name is James Arnold but everyone calls me James", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "James Arnold", - "start_position": 11, - "end_position": 23 - }, - { - "entity_type": "PERSON", - "entity_value": "James", - "start_position": 46, - "end_position": 51 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "James", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "James", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Arnold", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Arnold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 24, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "everyone", - "idx": 28, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "everyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "calls", - "idx": 37, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 43, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "James", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "James", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "South-America", - "Lowercase": false, - "Template#": 58 - } - }, - { - "full_text": "The true gender of Inger has been under debate for years, but the riff and building energy is a rock masterpiece regardless.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Inger", - "start_position": 19, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "true", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "true", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gender", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "gender", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Inger", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Inger", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 29, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "debate", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "debate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 47, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "years", - "idx": 51, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 56, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 58, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 62, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "riff", - "idx": 66, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "riff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 71, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "building", - "idx": 75, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "building", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "energy", - "idx": 84, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "energy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 91, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 94, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rock", - "idx": 96, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rock", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masterpiece", - "idx": 101, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "masterpiece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regardless", - "idx": 113, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "regardless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 123, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "South Africa", - "Lowercase": false, - "Template#": 94 - } - }, - { - "full_text": "Hello, this is Professor. Mikolaj Walczak. Who are you?", - "masked": null, - "spans": [ - { - "entity_type": "TITLE", - "entity_value": "Professor.", - "start_position": 15, - "end_position": 25 - }, - { - "entity_type": "PERSON", - "entity_value": "Mikolaj Walczak", - "start_position": 26, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "Hello", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "hello", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 5, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 12, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Professor", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Professor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 24, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mikolaj", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mikolaj", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Walczak", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Walczak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 41, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Who", - "idx": 43, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "who", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 47, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 51, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 54, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-TITLE", - "L-TITLE", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Polish", - "Country": "Indonesia", - "Lowercase": false, - "Template#": 50 - } - }, - { - "full_text": "My card 4556528132104498 expires soon � when will I get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4556528132104498", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4556528132104498", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4556528132104498", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Panama", - "Lowercase": false, - "Template#": 14 - } - }, - { - "full_text": "Need to change billing date of my card 4539626214210951", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4539626214210951", - "start_position": 39, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Need", - "idx": 0, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 5, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "billing", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "billing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4539626214210951", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4539626214210951", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Panama", - "Lowercase": false, - "Template#": 2 - } - }, - { - "full_text": "My website is ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 14, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 11, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Niger", - "Lowercase": false, - "Template#": 78 - } - }, - { - "full_text": "What is the limit for card 5293328599696176?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5293328599696176", - "start_position": 27, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 8, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "limit", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "limit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5293328599696176", - "idx": 27, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5293328599696176", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Japan", - "Lowercase": false, - "Template#": 54 - } - }, - { - "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers – getting paid,\" according to the Marianne website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Marianne", - "start_position": 257, - "end_position": 265 - } - ], - "tokens": [ - { - "text": "Mission", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mission", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Statement", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 17, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "This", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "non", - "idx": 24, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "non", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "profit", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "profit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founded", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "found", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 43, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "radio", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "radio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "executives", - "idx": 52, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "executive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 63, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "serves", - "idx": 64, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "serve", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 71, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "advocate", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "advocate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 86, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "value", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "value", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 108, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 110, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 114, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "supports", - "idx": 115, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "support", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 124, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 128, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 139, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "composers", - "idx": 141, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "composer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 151, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "publishers", - "idx": 155, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "publisher", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 166, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taking", - "idx": 169, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "care", - "idx": 176, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "care", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 181, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 184, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "important", - "idx": 187, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "important", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aspect", - "idx": 197, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "aspect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 204, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "their", - "idx": 207, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "careers", - "idx": 213, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "career", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 221, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "aux", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 223, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 225, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "auxpass", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "paid", - "idx": 233, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "pay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 237, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 238, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "according", - "idx": 240, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "prep", - "lemma_": "accord", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 250, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 253, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Marianne", - "idx": 257, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Marianne", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 266, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 273, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "They", - "idx": 275, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "offer", - "idx": 280, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "offer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "blanket", - "idx": 286, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "blanket", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 294, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "licenses", - "idx": 300, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "license", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 309, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "businesses", - "idx": 312, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "business", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 323, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "organizations", - "idx": 327, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "organization", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 341, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 346, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "them", - "idx": 352, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 357, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "play", - "idx": 360, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "play", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nearly", - "idx": 365, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "nearly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "13", - "idx": 372, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "13", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 375, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 383, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "works", - "idx": 391, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 396, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Greenland", - "Country": "Armenia", - "Lowercase": false, - "Template#": 114 - } - }, - { - "full_text": "This song by ex-Zombie Čechová is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Čechová", - "start_position": 23, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "amod", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Čechová", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Čechová", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 31, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 34, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 36, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 44, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 52, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 55, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 59, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 63, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 69, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 73, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 85, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 88, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 98, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 101, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 106, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 110, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 112, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 124, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 130, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 133, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 138, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 143, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 148, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 155, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 158, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 161, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 168, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 171, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 173, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 177, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 179, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 184, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 188, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 194, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 199, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 201, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Bosnia-Herzegovina", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "mette jeremiassen listed his top 20 songs for entertainment weekly and had the balls to list this song at #15. (what did he put at #1 you ask? answer:\"tube snake boogie\" by wacława sobczak – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "mette jeremiassen", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "PERSON", - "entity_value": "wacława sobczak", - "start_position": 173, - "end_position": 188 - } - ], - "tokens": [ - { - "text": "mette", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "mette", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jeremiassen", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "jeremiassen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 18, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 25, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 29, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 33, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 36, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "entertainment", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "weekly", - "idx": 60, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 67, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 71, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 75, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 79, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 85, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 88, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 98, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 103, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 106, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 107, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 109, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 111, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "what", - "idx": 112, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 117, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 121, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 124, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 128, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 131, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 132, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 134, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 138, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 141, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "answer:\"tube", - "idx": 143, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "answer:\"tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "snake", - "idx": 156, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boogie", - "idx": 162, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 168, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 170, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "wacława", - "idx": 173, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "wacława", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sobczak", - "idx": 181, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "sobczak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 189, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 191, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 193, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 196, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 202, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Liechtenstein", - "Lowercase": true, - "Template#": 103 - } - }, - { - "full_text": "For my take on Mr. Bermúdez, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bermúdez", - "start_position": 19, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bermúdez", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Bermúdez", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 29, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 40, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 49, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 51, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 53, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 63, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 66, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 70, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 74, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 77, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 81, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 90, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 93, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 98, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 99, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 103, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 112, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 116, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hispanic", - "Country": "Mexico", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "In Rwanda} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Petra Balatková points out, \"most are horrible\".", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Rwanda", - "start_position": 3, - "end_position": 9 - }, - { - "entity_type": "PERSON", - "entity_value": "Petra Balatková", - "start_position": 134, - "end_position": 149 - } - ], - "tokens": [ - { - "text": "In", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rwanda", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Rwanda", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "}", - "idx": 9, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "}", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 11, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 16, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "company", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "company", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 29, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 34, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 36, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expressions", - "idx": 44, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "expression", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 56, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employee", - "idx": 59, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "employee", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "loyalty", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "loyalty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sung", - "idx": 76, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "sing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 81, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "salarymen", - "idx": 84, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "salaryman", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 93, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Unfortunately", - "idx": 95, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "unfortunately", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 108, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 110, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regular", - "idx": 113, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "regular", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "RR", - "idx": 121, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rr", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "commenter", - "idx": 124, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "commenter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Petra", - "idx": 134, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Petra", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Balatková", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Balatková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 150, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "out", - "idx": 157, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "out", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 160, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 162, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 163, - "tag_": "JJS", - "pos_": "ADJ", - "dep_": "nsubj", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 168, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "horrible", - "idx": 172, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "horrible", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 180, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 181, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Rwanda", - "Lowercase": false, - "Template#": 111 - } - }, - { - "full_text": "I have done an online order but didn't get any message on my registered 780-775-0277. Could you please look into it ?", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "780-775-0277", - "start_position": 72, - "end_position": 84 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "done", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "online", - "idx": 15, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "online", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 32, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 35, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 39, - "tag_": "VB", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "any", - "idx": 43, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "any", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "message", - "idx": 47, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "message", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 55, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 58, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "registered", - "idx": 61, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "registered", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "780", - "idx": 72, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "780", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 75, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "775", - "idx": 76, - "tag_": "CD", - "pos_": "NUM", - "dep_": "prep", - "lemma_": "775", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 79, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "0277", - "idx": 80, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "0277", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 86, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 92, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 96, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "look", - "idx": 103, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "look", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "into", - "idx": 108, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "into", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 113, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 116, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Venezuela", - "Lowercase": false, - "Template#": 12 - } - }, - { - "full_text": "How can I request a new credit card pin ?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pin", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Croatian", - "Country": "Jordan", - "Lowercase": false, - "Template#": 17 - } - }, - { - "full_text": "I'd like it to be sent to Dalmatinova 43, Velenje 3503", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Dalmatinova 43, Velenje 3503", - "start_position": 26, - "end_position": 54 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 9, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 12, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 15, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 18, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 23, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dalmatinova", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Dalmatinova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "43", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "43", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 40, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Velenje", - "idx": 42, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Velenje", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3503", - "idx": 50, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3503", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Japanese (Anglicized)", - "Country": "Benin", - "Lowercase": false, - "Template#": 69 - } - }, - { - "full_text": "Please have the manager call me at 66 554 64 62 I'd like to join accounts with ms. Đoko", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "66 554 64 62", - "start_position": 35, - "end_position": 47 - }, - { - "entity_type": "PERSON", - "entity_value": "Đoko", - "start_position": 83, - "end_position": 87 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manager", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "manager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 24, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "66", - "idx": 35, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "66", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "554", - "idx": 38, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "554", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "64", - "idx": 42, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "64", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "62", - "idx": 45, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "62", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 48, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 49, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 52, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 57, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "join", - "idx": 60, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "join", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "accounts", - "idx": 65, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 74, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ms", - "idx": 79, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ms", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 81, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Đoko", - "idx": 83, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Đoko", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Pakistan", - "Lowercase": false, - "Template#": 35 - } - }, - { - "full_text": "What is procedure to redeem points won on credit card 5562658703339808 transactions ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5562658703339808", - "start_position": 54, - "end_position": 70 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 5, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "procedure", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "procedure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 18, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "redeem", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "redeem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 28, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "won", - "idx": 35, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "win", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 39, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5562658703339808", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5562658703339808", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transactions", - "idx": 71, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "transaction", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 84, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "United Arab Emirates", - "Lowercase": false, - "Template#": 13 - } - }, - { - "full_text": "how can we reach you? you can call 789 0750", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "789 0750", - "start_position": 35, - "end_position": 43 - } - ], - "tokens": [ - { - "text": "how", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reach", - "idx": 11, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "reach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 17, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 20, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 22, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 26, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 30, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "789", - "idx": 35, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dobj", - "lemma_": "789", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "0750", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "oprd", - "lemma_": "0750", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "L-PHONE_NUMBER" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Saudi Arabia", - "Lowercase": true, - "Template#": 68 - } - }, - { - "full_text": "Foxmoor songwriter Mathias Ruud employs corporate lingo in the first verse of his Affinity Investment Group Resignation Letter", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Foxmoor", - "start_position": 0, - "end_position": 7 - }, - { - "entity_type": "PERSON", - "entity_value": "Mathias Ruud", - "start_position": 19, - "end_position": 31 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Affinity Investment Group", - "start_position": 82, - "end_position": 107 - } - ], - "tokens": [ - { - "text": "Foxmoor", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Foxmoor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriter", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mathias", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mathias", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ruud", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Ruud", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employs", - "idx": 32, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "employ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "corporate", - "idx": 40, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "corporate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lingo", - "idx": 50, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "lingo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 56, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 59, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 63, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verse", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 75, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 78, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Affinity", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Affinity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Investment", - "idx": 91, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Investment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Group", - "idx": 102, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Group", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Resignation", - "idx": 108, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Resignation", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Letter", - "idx": 120, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Letter", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-ORGANIZATION", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "New-York", - "Lowercase": false, - "Template#": 113 - } - }, - { - "full_text": "Celebrating its 10th year in Benningen, Datacorp is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Benningen", - "start_position": 29, - "end_position": 38 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Datacorp", - "start_position": 40, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "Celebrating", - "idx": 0, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "celebrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10th", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "10th", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Benningen", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Benningen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Datacorp", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Datacorp", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 49, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "501(c)3", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "501(c)3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 62, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invites", - "idx": 67, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "invite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 75, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 87, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "around", - "idx": 92, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Texas", - "idx": 112, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Texas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 118, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "share", - "idx": 121, - "tag_": "VB", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 127, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "universal", - "idx": 131, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "universal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "language", - "idx": 141, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "language", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 150, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 153, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 159, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "collaborations", - "idx": 162, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "collaboration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designed", - "idx": 177, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 186, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bridge", - "idx": 189, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "bridge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultures", - "idx": 196, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "culture", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 204, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "build", - "idx": 206, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "build", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "friendships", - "idx": 212, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "friendship", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 224, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultivate", - "idx": 228, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "cultivate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peace", - "idx": 238, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "peace", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 243, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "U-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "United Arab Emirates", - "Lowercase": false, - "Template#": 116 - } - }, - { - "full_text": "Uganda was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Uganda", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "Uganda", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Uganda", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 7, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 11, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 24, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Uganda", - "Lowercase": false, - "Template#": 24 - } - }, - { - "full_text": "I work for Sammy'S Record Shack", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Sammy'S Record Shack", - "start_position": 11, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "work", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "work", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sammy", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Sammy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "case", - "lemma_": "'S", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Record", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Record", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Shack", - "idx": 26, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Shack", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Italian", - "Country": "Syria", - "Lowercase": false, - "Template#": 81 - } - }, - { - "full_text": "Kristian shouted at Enrico: \"What are you doing here?\"", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Kristian", - "start_position": 0, - "end_position": 8 - }, - { - "entity_type": "PERSON", - "entity_value": "Enrico", - "start_position": 20, - "end_position": 26 - } - ], - "tokens": [ - { - "text": "Kristian", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Kristian", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shouted", - "idx": 9, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "shout", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 17, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Enrico", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Enrico", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 26, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 28, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 29, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 34, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 38, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "doing", - "idx": 42, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 48, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 53, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Cameroon", - "Lowercase": false, - "Template#": 122 - } - }, - { - "full_text": "how do i check my balance on my credit card?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "how", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "check", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "check", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balance", - "idx": 18, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "balance", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 32, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 39, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Jamaica", - "Lowercase": true, - "Template#": 15 - } - }, - { - "full_text": "Lucas shouted at Tuomo: \"What are you doing here?\"", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Lucas", - "start_position": 0, - "end_position": 5 - }, - { - "entity_type": "PERSON", - "entity_value": "Tuomo", - "start_position": 17, - "end_position": 22 - } - ], - "tokens": [ - { - "text": "Lucas", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Lucas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shouted", - "idx": 6, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "shout", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 14, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Tuomo", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Tuomo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 22, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 24, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 25, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 30, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 34, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "doing", - "idx": 38, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 44, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 48, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 49, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Finnish", - "Country": "Solomon Islands", - "Lowercase": false, - "Template#": 122 - } - }, - { - "full_text": "my name appears incorrectly on credit card statement could you please correct it to miss jana vítková?", - "masked": null, - "spans": [ - { - "entity_type": "TITLE", - "entity_value": "miss", - "start_position": 84, - "end_position": 88 - }, - { - "entity_type": "PERSON", - "entity_value": "jana vítková", - "start_position": 89, - "end_position": 101 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "appears", - "idx": 8, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "appear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "incorrectly", - "idx": 16, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "incorrectly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 38, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 53, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 59, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 63, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 70, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 78, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 81, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "miss", - "idx": 84, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "miss", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jana", - "idx": 89, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "jana", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "vítková", - "idx": 94, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "vítková", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 101, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-TITLE", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Slovakia", - "Lowercase": true, - "Template#": 28 - } - }, - { - "full_text": "I would like to remove my kid Guttormur from the will. How do I do that?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Guttormur", - "start_position": 30, - "end_position": 39 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "remove", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "remove", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kid", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "kid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guttormur", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Guttormur", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 53, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "How", - "idx": 55, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 59, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 62, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 64, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 67, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 71, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Madagascar", - "Lowercase": false, - "Template#": 45 - } - }, - { - "full_text": "inject select * from users where clinet_ip = ?%//!%20\\||%20/", - "masked": null, - "spans": [ - { - "entity_type": "IP_ADDRESS", - "entity_value": "", - "start_position": 55, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "inject", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "inject", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "select", - "idx": 7, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dobj", - "lemma_": "select", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "*", - "idx": 14, - "tag_": "NFP", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "*", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "users", - "idx": 21, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 27, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "clinet_ip", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "clinet_ip", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "=", - "idx": 43, - "tag_": "NFP", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "=", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "%", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "relcl", - "lemma_": "%", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "//!%20\\||%20/", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "//!%20\\||%20/", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Japanese (Anglicized)", - "Country": "Ukraine", - "Lowercase": true, - "Template#": 36 - } - }, - { - "full_text": "Dee'S Drive-In is the brainchild of our 3 founders: Katie Miles, Lewis Abbott and Ivan Petřík. The idea was born (on the beach) while they were constructing a website to be the basis of another start-up idea.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Dee'S Drive-In", - "start_position": 0, - "end_position": 14 - }, - { - "entity_type": "PERSON", - "entity_value": "Katie Miles", - "start_position": 52, - "end_position": 63 - }, - { - "entity_type": "PERSON", - "entity_value": "Lewis Abbott", - "start_position": 65, - "end_position": 77 - }, - { - "entity_type": "PERSON", - "entity_value": "Ivan Petřík", - "start_position": 82, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "Dee", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Dee", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "case", - "lemma_": "'S", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Drive", - "idx": 6, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Drive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 11, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "In", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 15, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brainchild", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "brainchild", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 33, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "our", - "idx": 36, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "founders", - "idx": 42, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "founder", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 50, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Katie", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Katie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Miles", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Miles", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 63, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lewis", - "idx": 65, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lewis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Abbott", - "idx": 71, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Abbott", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 78, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ivan", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ivan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Petřík", - "idx": 87, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Petřík", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 93, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 95, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 96, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 100, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 105, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "born", - "idx": 109, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 114, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 115, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 118, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beach", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beach", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 127, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 129, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 135, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 140, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "constructing", - "idx": 145, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "construct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 158, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 160, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 168, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 171, - "tag_": "VB", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 174, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "basis", - "idx": 178, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "basis", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 184, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "another", - "idx": 187, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "another", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "start", - "idx": 195, - "tag_": "VB", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "start", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 200, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "up", - "idx": 201, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "up", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "idea", - "idx": 204, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "idea", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 208, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Burkina", - "Lowercase": false, - "Template#": 117 - } - }, - { - "full_text": "Yolanda Oden will be talking in the conference", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Yolanda Oden", - "start_position": 0, - "end_position": 12 - } - ], - "tokens": [ - { - "text": "Yolanda", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Yolanda", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Oden", - "idx": 8, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Oden", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 13, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 18, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "talking", - "idx": 21, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "talk", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 29, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 32, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "conference", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "conference", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "Gambia", - "Lowercase": false, - "Template#": 90 - } - }, - { - "full_text": "My credit card 5386564038394381 has been lost, Can I request you to block it.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5386564038394381", - "start_position": 15, - "end_position": 31 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 10, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5386564038394381", - "idx": 15, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5386564038394381", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 32, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 36, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 41, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 45, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Can", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 51, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 61, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 65, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 68, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 74, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 76, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Libya", - "Lowercase": false, - "Template#": 1 - } - }, - { - "full_text": "Just posted a photo ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 20, - "end_position": 20 - } - ], - "tokens": [ - { - "text": "Just", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "just", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "posted", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "post", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "photo", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "photo", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Oman", - "Lowercase": false, - "Template#": 77 - } - }, - { - "full_text": "It may be too that Weber was influenced by an earlier song, \"Carry Me Back To Ukraine,\" which was arranged and sung by Xenophon Maslov in 1847 (though Maslov's song was actually about a boat!).", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Weber", - "start_position": 19, - "end_position": 24 - }, - { - "entity_type": "LOCATION", - "entity_value": "Ukraine", - "start_position": 78, - "end_position": 85 - }, - { - "entity_type": "PERSON", - "entity_value": "Xenophon Maslov", - "start_position": 119, - "end_position": 134 - }, - { - "entity_type": "PERSON", - "entity_value": "Maslov", - "start_position": 151, - "end_position": 157 - } - ], - "tokens": [ - { - "text": "It", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "may", - "idx": 3, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "may", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "too", - "idx": 10, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "too", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 14, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weber", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubjpass", - "lemma_": "Weber", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 25, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "influenced", - "idx": 29, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "influence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 43, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "earlier", - "idx": 46, - "tag_": "JJR", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 58, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 60, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carry", - "idx": 61, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "carry", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Me", - "idx": 67, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Back", - "idx": 70, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "back", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 75, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ukraine", - "idx": 78, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Ukraine", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 85, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 86, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "which", - "idx": 88, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubjpass", - "lemma_": "which", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 94, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "arranged", - "idx": 98, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "arrange", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 107, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sung", - "idx": 111, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "sing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 116, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Xenophon", - "idx": 119, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Xenophon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Maslov", - "idx": 128, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Maslov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 135, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1847", - "idx": 138, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1847", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 143, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "though", - "idx": 144, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "though", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Maslov", - "idx": 151, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Maslov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 157, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 160, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 165, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "actually", - "idx": 169, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "actually", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 178, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 184, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boat", - "idx": 186, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boat", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 190, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 191, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 192, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Ukraine", - "Lowercase": false, - "Template#": 109 - } - }, - { - "full_text": "i once lived in ul. nad jarem 22, gdańsk 80-148. i now live in freistädter strasse 61, brenndorf 9122", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "ul. nad jarem 22, gdańsk 80-148", - "start_position": 16, - "end_position": 47 - }, - { - "entity_type": "LOCATION", - "entity_value": "freistädter strasse 61, brenndorf 9122", - "start_position": 63, - "end_position": 101 - } - ], - "tokens": [ - { - "text": "i", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ul", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "ul", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 18, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nad", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "nad", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jarem", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "jarem", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "22", - "idx": 30, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "22", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 32, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gdańsk", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "gdańsk", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "80", - "idx": 41, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "80", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 43, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "148", - "idx": 44, - "tag_": "CD", - "pos_": "NUM", - "dep_": "prep", - "lemma_": "148", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 49, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 51, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 55, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 60, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "freistädter", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "freistädter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "strasse", - "idx": 75, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "strasse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "61", - "idx": 83, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "61", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 85, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brenndorf", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "brenndorf", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "9122", - "idx": 97, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "9122", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Tajikistan", - "Lowercase": true, - "Template#": 61 - } - }, - { - "full_text": "What's your name? Ava Abbott", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ava Abbott", - "start_position": 18, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 16, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ava", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ava", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Abbott", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Abbott", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Greece", - "Lowercase": false, - "Template#": 66 - } - }, - { - "full_text": "The address of Platinum Interior Design is Rue du Chapy 336, Groot-Bijgaarden 1702", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Platinum Interior Design", - "start_position": 15, - "end_position": 39 - }, - { - "entity_type": "LOCATION", - "entity_value": "Rue du Chapy 336, Groot-Bijgaarden 1702", - "start_position": 43, - "end_position": 82 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Platinum", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Platinum", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Interior", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Interior", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Design", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 40, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Rue", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nmod", - "lemma_": "Rue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "du", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "du", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chapy", - "idx": 50, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Chapy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "336", - "idx": 56, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "336", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 59, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Groot", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Groot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 66, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bijgaarden", - "idx": 67, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Bijgaarden", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1702", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "1702", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Middle-East", - "Lowercase": false, - "Template#": 84 - } - }, - { - "full_text": "This song by ex-Zombie Pratt is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Pratt", - "start_position": 23, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pratt", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Pratt", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 32, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 34, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 53, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 61, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 67, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 71, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 83, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 86, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 90, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 96, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 108, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 110, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 113, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 122, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 128, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 131, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 136, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 141, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 146, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 153, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 156, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 159, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 166, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 169, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 171, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 175, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 177, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 182, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 186, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 192, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 197, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 199, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "El Salvador", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "From the film American graffiti (also features Signe Carlsen. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Signe Carlsen", - "start_position": 47, - "end_position": 60 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Signe", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Signe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carlsen", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Carlsen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 60, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 62, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 66, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 69, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 73, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 76, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 80, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Middle East", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "The Stephan Sigursteinsson version recorded for Life'S Gold became the first celebrity recording by a classical musician to sell one million copies. The song was awarded the seventh gold disc ever granted.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Stephan Sigursteinsson", - "start_position": 4, - "end_position": 26 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Life'S Gold", - "start_position": 48, - "end_position": 59 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stephan", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Stephan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sigursteinsson", - "idx": 12, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sigursteinsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "version", - "idx": 27, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "version", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recorded", - "idx": 35, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "record", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 44, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Life", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Life", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 52, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "case", - "lemma_": "'S", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Gold", - "idx": 55, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "gold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "became", - "idx": 60, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "become", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 67, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 71, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "celebrity", - "idx": 77, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "celebrity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "recording", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "recording", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 97, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 100, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "classical", - "idx": 102, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "classical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musician", - "idx": 112, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 121, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sell", - "idx": 124, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "sell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 129, - "tag_": "CD", - "pos_": "NUM", - "dep_": "compound", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "million", - "idx": 133, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "million", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "copies", - "idx": 141, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "copy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 147, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 149, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 153, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 158, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "awarded", - "idx": 162, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "award", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 170, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "seventh", - "idx": 174, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "seventh", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gold", - "idx": 182, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "gold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "disc", - "idx": 187, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "disc", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ever", - "idx": 192, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "ever", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "granted", - "idx": 197, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "grant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 204, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "California", - "Lowercase": false, - "Template#": 110 - } - }, - { - "full_text": "Please send my portfolio to this email ElishaFedorov@fleckens.hu", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "ElishaFedorov@fleckens.hu", - "start_position": 39, - "end_position": 64 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "portfolio", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "portfolio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 28, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ElishaFedorov@fleckens.hu", - "idx": 39, - "tag_": "ADD", - "pos_": "X", - "dep_": "appos", - "lemma_": "elishafedorov@fleckens.hu", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Croatia", - "Lowercase": false, - "Template#": 49 - } - }, - { - "full_text": "During the 1990s, Locost Accessories invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Locost Accessories", - "start_position": 18, - "end_position": 36 - } - ], - "tokens": [ - { - "text": "During", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "during", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1990s", - "idx": 11, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "1990", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 16, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Locost", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Locost", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Accessories", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Accessories", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invested", - "idx": 37, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "invest", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heavily", - "idx": 46, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "heavily", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 54, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 57, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "microprocessor", - "idx": 61, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "microprocessor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designs", - "idx": 76, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fostering", - "idx": 84, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "foster", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 94, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rapid", - "idx": 98, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "rapid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "growth", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "growth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 111, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 114, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "computer", - "idx": 118, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "computer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "industry", - "idx": 127, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "industry", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 135, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Paraguay", - "Lowercase": false, - "Template#": 120 - } - }, - { - "full_text": "It may be too that Bouvier was influenced by an earlier song, \"Carry Me Back To Scotland,\" which was arranged and sung by Nedim Hutinović in 1847 (though Hutinović's song was actually about a boat!).", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Bouvier", - "start_position": 19, - "end_position": 26 - }, - { - "entity_type": "LOCATION", - "entity_value": "Scotland", - "start_position": 80, - "end_position": 88 - }, - { - "entity_type": "PERSON", - "entity_value": "Nedim Hutinović", - "start_position": 122, - "end_position": 137 - }, - { - "entity_type": "PERSON", - "entity_value": "Hutinović", - "start_position": 154, - "end_position": 163 - } - ], - "tokens": [ - { - "text": "It", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "may", - "idx": 3, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "may", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "too", - "idx": 10, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "too", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 14, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bouvier", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubjpass", - "lemma_": "Bouvier", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 27, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "influenced", - "idx": 31, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "influence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "earlier", - "idx": 48, - "tag_": "JJR", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 60, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 62, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Carry", - "idx": 63, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "carry", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Me", - "idx": 69, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Back", - "idx": 72, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "back", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 77, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Scotland", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Scotland", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 88, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 89, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "which", - "idx": 91, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubjpass", - "lemma_": "which", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 97, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "arranged", - "idx": 101, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "arrange", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 110, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sung", - "idx": 114, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "sing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 119, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Nedim", - "idx": 122, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Nedim", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hutinović", - "idx": 128, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Hutinović", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 138, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1847", - "idx": 141, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1847", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 146, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "though", - "idx": 147, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "though", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hutinović", - "idx": 154, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Hutinović", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 163, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 166, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 171, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "actually", - "idx": 175, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "actually", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 184, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 190, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boat", - "idx": 192, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boat", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 196, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 197, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 198, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Slovenian", - "Country": "Scotland", - "Lowercase": false, - "Template#": 109 - } - }, - { - "full_text": "My religion does not allow speaking to bots, they are evil and hacked by the Devil", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "religion", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "religion", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "does", - "idx": 12, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 17, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "allow", - "idx": 21, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "allow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speaking", - "idx": 27, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 36, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bots", - "idx": 39, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 43, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 50, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "evil", - "idx": 54, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "evil", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 59, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hacked", - "idx": 63, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "hack", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 70, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Devil", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Devil", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Niger", - "Lowercase": false, - "Template#": 32 - } - }, - { - "full_text": "I have done an online order but didn't get any message on my registered 60-17-51-75. Could you please look into it ?", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "60-17-51-75", - "start_position": 72, - "end_position": 83 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "done", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "online", - "idx": 15, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "online", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 32, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 35, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 39, - "tag_": "VB", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "any", - "idx": 43, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "any", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "message", - "idx": 47, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "message", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 55, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 58, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "registered", - "idx": 61, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "registered", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "60", - "idx": 72, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "60", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 74, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "17", - "idx": 75, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "17", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 77, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "51", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "51", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 80, - "tag_": "SYM", - "pos_": "SYM", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "75", - "idx": 81, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "75", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 83, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 85, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 91, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 95, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "look", - "idx": 102, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "look", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "into", - "idx": 107, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "into", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 112, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 115, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "Estonia", - "Lowercase": false, - "Template#": 12 - } - }, - { - "full_text": "Celebrating its 10th year in Sopot, Home Centers is a 501(c)3 that invites songwriters from around the world to Texas to share the universal language of music in collaborations designed to bridge cultures, build friendships and cultivate peace.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Sopot", - "start_position": 29, - "end_position": 34 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Home Centers", - "start_position": 36, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "Celebrating", - "idx": 0, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "celebrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "its", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "10th", - "idx": 16, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "10th", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "year", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sopot", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Sopot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 34, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Home", - "idx": 36, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Centers", - "idx": 41, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Centers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 49, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "501(c)3", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "501(c)3", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 62, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invites", - "idx": 67, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "invite", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriters", - "idx": 75, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 87, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "around", - "idx": 92, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "around", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "world", - "idx": 103, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "world", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 109, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Texas", - "idx": 112, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Texas", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 118, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "share", - "idx": 121, - "tag_": "VB", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 127, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "universal", - "idx": 131, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "universal", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "language", - "idx": 141, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "language", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 150, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "music", - "idx": 153, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "music", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 159, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "collaborations", - "idx": 162, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "collaboration", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designed", - "idx": 177, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 186, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bridge", - "idx": 189, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "bridge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultures", - "idx": 196, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "culture", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 204, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "build", - "idx": 206, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "build", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "friendships", - "idx": 212, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "friendship", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 224, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cultivate", - "idx": 228, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "cultivate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "peace", - "idx": 238, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "peace", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 243, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "French", - "Country": "Sunni", - "Lowercase": false, - "Template#": 116 - } - }, - { - "full_text": "My name is Ella Snider but everyone calls me Ella", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Ella Snider", - "start_position": 11, - "end_position": 22 - }, - { - "entity_type": "PERSON", - "entity_value": "Ella", - "start_position": 45, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ella", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ella", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snider", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Snider", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 23, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "everyone", - "idx": 27, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "everyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "calls", - "idx": 36, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 42, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ella", - "idx": 45, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "Ella", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Scotland", - "Lowercase": false, - "Template#": 58 - } - }, - { - "full_text": "Maybe it's under Lóa Sigmundsdóttir", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Lóa Sigmundsdóttir", - "start_position": 17, - "end_position": 35 - } - ], - "tokens": [ - { - "text": "Maybe", - "idx": 0, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "maybe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 11, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lóa", - "idx": 17, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lóa", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sigmundsdóttir", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Sigmundsdóttir", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Icelandic", - "Country": "Wales", - "Lowercase": false, - "Template#": 75 - } - }, - { - "full_text": "For my take on Mr. Csonka, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Csonka", - "start_position": 19, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Csonka", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Csonka", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 25, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 27, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 38, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 47, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 49, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 51, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 61, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 64, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 68, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 72, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 75, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 79, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 88, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 91, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 96, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 97, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 101, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 110, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 114, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Estonia", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "my name is jo van gameren but everyone calls me jo", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "jo van gameren", - "start_position": 11, - "end_position": 25 - }, - { - "entity_type": "PERSON", - "entity_value": "jo", - "start_position": 48, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "my", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 8, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jo", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "jo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "van", - "idx": 14, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "van", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gameren", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "gameren", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 26, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "everyone", - "idx": 30, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "everyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "calls", - "idx": 39, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "jo", - "idx": 48, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "oprd", - "lemma_": "jo", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "I-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Africa", - "Lowercase": true, - "Template#": 58 - } - }, - { - "full_text": "Susanne Fleischer listed his top 20 songs for Entertainment Weekly and had the balls to list this song at #15. (What did he put at #1 you ask? Answer:\"Tube Snake Boogie\" by Louelle van den Brandhof – go figure)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Susanne Fleischer", - "start_position": 0, - "end_position": 17 - }, - { - "entity_type": "PERSON", - "entity_value": "Louelle van den Brandhof", - "start_position": 173, - "end_position": 197 - } - ], - "tokens": [ - { - "text": "Susanne", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Susanne", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fleischer", - "idx": 8, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Fleischer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "listed", - "idx": 18, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 25, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "top", - "idx": 29, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "top", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "20", - "idx": 33, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "20", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 36, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Entertainment", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Entertainment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Weekly", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Weekly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 67, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "had", - "idx": 71, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 75, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "balls", - "idx": 79, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "ball", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 85, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 88, - "tag_": "VB", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 93, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 98, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 103, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 106, - "tag_": "$", - "pos_": "SYM", - "dep_": "nmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "15", - "idx": 107, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "15", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 109, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 111, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 112, - "tag_": "WP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "did", - "idx": 117, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 121, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "put", - "idx": 124, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "put", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 128, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "#", - "idx": 131, - "tag_": "$", - "pos_": "SYM", - "dep_": "quantmod", - "lemma_": "#", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1", - "idx": 132, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 134, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ask", - "idx": 138, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "ask", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 141, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answer:\"Tube", - "idx": 143, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answer:\"Tube", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Snake", - "idx": 156, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Snake", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boogie", - "idx": 162, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Boogie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 168, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 170, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Louelle", - "idx": 173, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Louelle", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "van", - "idx": 181, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "van", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "den", - "idx": 185, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "den", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brandhof", - "idx": 189, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Brandhof", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 198, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 200, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "go", - "idx": 202, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "go", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "figure", - "idx": 205, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "figure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 211, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "I-PERSON", - "I-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Dutch", - "Country": "Czech Republic", - "Lowercase": false, - "Template#": 103 - } - }, - { - "full_text": "May I request to have the statement sent to Brandenburgische Straße 58, Berlin Lichtenrade 12107?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Brandenburgische Straße 58, Berlin Lichtenrade 12107", - "start_position": 44, - "end_position": 96 - } - ], - "tokens": [ - { - "text": "May", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "May", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 14, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 17, - "tag_": "VB", - "pos_": "AUX", - "dep_": "xcomp", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 36, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 41, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brandenburgische", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Brandenburgische", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Straße", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Straße", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "58", - "idx": 68, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "58", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 70, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Berlin", - "idx": 72, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Berlin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lichtenrade", - "idx": 79, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Lichtenrade", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "12107", - "idx": 91, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "12107", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 96, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Gambia", - "Lowercase": false, - "Template#": 38 - } - }, - { - "full_text": "Not getting bank documents on my addres. Can you please validate the following 27 Alkyon Avenue, Kouklia 8500", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "27 Alkyon Avenue, Kouklia 8500", - "start_position": 79, - "end_position": 109 - } - ], - "tokens": [ - { - "text": "Not", - "idx": 0, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 4, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bank", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "bank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "documents", - "idx": 17, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "document", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 30, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addres", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "addres", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Can", - "idx": 41, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validate", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "validate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 65, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "following", - "idx": 69, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "follow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "27", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "27", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Alkyon", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Alkyon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Avenue", - "idx": 89, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Avenue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 95, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kouklia", - "idx": 97, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Kouklia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "8500", - "idx": 105, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "8500", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Chechen (Latin)", - "Country": "Bolivia", - "Lowercase": false, - "Template#": 7 - } - }, - { - "full_text": "what are my options?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "what", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 5, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 9, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "options", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "option", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 19, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "French", - "Country": "Russia", - "Lowercase": true, - "Template#": 40 - } - }, - { - "full_text": "I've shared files with you ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 27, - "end_position": 27 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'ve", - "idx": 1, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shared", - "idx": 5, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "share", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "files", - "idx": 12, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "file", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 18, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 23, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Croatian", - "Country": "Algeria", - "Lowercase": false, - "Template#": 80 - } - }, - { - "full_text": "I'd like to order a taxi to Smáratún 31, Vík 870", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Smáratún 31, Vík 870", - "start_position": 28, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 9, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 12, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taxi", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "taxi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Smáratún", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Smáratún", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "31", - "idx": 37, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "31", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Vík", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Vík", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "870", - "idx": 45, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "870", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Kurdistan", - "Lowercase": false, - "Template#": 62 - } - }, - { - "full_text": "I have lost my card 5274071970362249. Could you please block my credit card ASAP ? , My name is Josef Vokatý.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5274071970362249", - "start_position": 20, - "end_position": 36 - }, - { - "entity_type": "PERSON", - "entity_value": "Josef Vokatý", - "start_position": 96, - "end_position": 108 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 2, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 7, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5274071970362249", - "idx": 20, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5274071970362249", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 36, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Could", - "idx": 38, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 48, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "block", - "idx": 55, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "block", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 61, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 71, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ASAP", - "idx": 76, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "advmod", - "lemma_": "ASAP", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 83, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 85, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 88, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 93, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Josef", - "idx": 96, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Josef", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Vokatý", - "idx": 102, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Vokatý", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 108, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Nigeria", - "Lowercase": false, - "Template#": 10 - } - }, - { - "full_text": "You can tell Lily was a huge Lily Bennett fan. Written when he was only 14.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Lily", - "start_position": 13, - "end_position": 17 - }, - { - "entity_type": "PERSON", - "entity_value": "Lily Bennett", - "start_position": 29, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lily", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Lily", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 18, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "huge", - "idx": 24, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "huge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lily", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lily", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bennett", - "idx": 34, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Bennett", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fan", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Written", - "idx": 47, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 55, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 63, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "only", - "idx": 67, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "only", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 72, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 74, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "England/Wales", - "Country": "Niger", - "Lowercase": false, - "Template#": 105 - } - }, - { - "full_text": "Hello I moved, please update my new address is Kvaløyvågvegen 140, KVALØYSLETTA 9100", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Kvaløyvågvegen 140, KVALØYSLETTA 9100", - "start_position": 47, - "end_position": 84 - } - ], - "tokens": [ - { - "text": "Hello", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "hello", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 6, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "moved", - "idx": 8, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "move", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 13, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 15, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "update", - "idx": 22, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "update", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 29, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 44, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kvaløyvågvegen", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Kvaløyvågvegen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "140", - "idx": 62, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "140", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 65, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "KVALØYSLETTA", - "idx": 67, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "KVALØYSLETTA", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "9100", - "idx": 80, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "9100", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Asia", - "Lowercase": false, - "Template#": 47 - } - }, - { - "full_text": "I want to cancel my card 4485161502276468 because I lost it", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4485161502276468", - "start_position": 25, - "end_position": 41 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4485161502276468", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4485161502276468", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "because", - "idx": 42, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "because", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 50, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lost", - "idx": 52, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Guinea", - "Lowercase": false, - "Template#": 52 - } - }, - { - "full_text": "I'd like to order a taxi to Netelaan 258, Kortenaken 3470", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Netelaan 258, Kortenaken 3470", - "start_position": 28, - "end_position": 57 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 1, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 4, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 9, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 12, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "taxi", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "taxi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Netelaan", - "idx": 28, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Netelaan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "258", - "idx": 37, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "258", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 40, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kortenaken", - "idx": 42, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Kortenaken", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3470", - "idx": 53, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3470", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Jordan", - "Lowercase": false, - "Template#": 62 - } - }, - { - "full_text": "How can I request a new credit card pin ?", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 8, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 24, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pin", - "idx": 36, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 40, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Mali", - "Lowercase": false, - "Template#": 17 - } - }, - { - "full_text": "Please have the manager call me at 070 7033 9168 I'd like to join accounts with ms. Inunnguaq", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "070 7033 9168", - "start_position": 35, - "end_position": 48 - }, - { - "entity_type": "PERSON", - "entity_value": "Inunnguaq", - "start_position": 84, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manager", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "manager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "call", - "idx": 24, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "call", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 32, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "070", - "idx": 35, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "070", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "7033", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "7033", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "9168", - "idx": 44, - "tag_": "CD", - "pos_": "NUM", - "dep_": "ROOT", - "lemma_": "9168", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 49, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'d", - "idx": 50, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 53, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 58, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "join", - "idx": 61, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "join", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "accounts", - "idx": 66, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 75, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ms", - "idx": 80, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "ms", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 82, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Inunnguaq", - "idx": 84, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Inunnguaq", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Greenland", - "Country": "Mozambique", - "Lowercase": false, - "Template#": 35 - } - }, - { - "full_text": "How do I change the address linked to my credit card to Letališka 75, Kobilje 9227?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Letališka 75, Kobilje 9227", - "start_position": 56, - "end_position": 82 - } - ], - "tokens": [ - { - "text": "How", - "idx": 0, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 4, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 9, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "linked", - "idx": 28, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "link", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 38, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "credit", - "idx": 41, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "credit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 48, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 53, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Letališka", - "idx": 56, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Letališka", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "75", - "idx": 66, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "75", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 68, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kobilje", - "idx": 70, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Kobilje", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "9227", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "9227", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 82, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Haiti", - "Lowercase": false, - "Template#": 19 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' HartmannAntonsson@jourrapide.com", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "HartmannAntonsson@jourrapide.com", - "start_position": 59, - "end_position": 91 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "HartmannAntonsson@jourrapide.com", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "pobj", - "lemma_": "hartmannantonsson@jourrapide.com", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Greece", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "I would like to remove my kid Róża from the will. How do I do that?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Róża", - "start_position": 30, - "end_position": 34 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "remove", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "remove", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 23, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "kid", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "kid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Róża", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Róża", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 35, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 40, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 44, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 48, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "How", - "idx": 50, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "how", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 54, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 59, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 62, - "tag_": "DT", - "pos_": "DET", - "dep_": "dobj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 66, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Algeria", - "Lowercase": false, - "Template#": 45 - } - }, - { - "full_text": "Please tell me your date of birth. It's 4/21/1972", - "masked": null, - "spans": [ - { - "entity_type": "BIRTHDAY", - "entity_value": "4/21/1972", - "start_position": 40, - "end_position": 49 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 15, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "date", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "date", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "birth", - "idx": 28, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "birth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 33, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 35, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 37, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4/21/1972", - "idx": 40, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "4/21/1972", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-BIRTHDAY" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Latvia", - "Lowercase": false, - "Template#": 59 - } - }, - { - "full_text": "A tribute to Laura Lane-Poole – sadly, she wasn't impressed.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Laura Lane-Poole", - "start_position": 13, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "A", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tribute", - "idx": 2, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "tribute", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Laura", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Laura", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lane", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lane", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 23, - "tag_": "HYPH", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Poole", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Poole", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "â€", - "idx": 30, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "punct", - "lemma_": "â€", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "“", - "idx": 32, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sadly", - "idx": 34, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "sadly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "she", - "idx": 41, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 45, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 48, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "impressed", - "idx": 52, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "impressed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 61, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "B-PERSON", - "I-PERSON", - "I-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Solomon Islands", - "Lowercase": false, - "Template#": 100 - } - }, - { - "full_text": "My card 5285808489036922 expires soon � when will I get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5285808489036922", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5285808489036922", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5285808489036922", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Germany", - "Lowercase": false, - "Template#": 14 - } - }, - { - "full_text": "Jordan was super fun to visit!", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Jordan", - "start_position": 0, - "end_position": 6 - } - ], - "tokens": [ - { - "text": "Jordan", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Jordan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 7, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "super", - "idx": 11, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "super", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fun", - "idx": 17, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "visit", - "idx": 24, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "visit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Scottish", - "Country": "Jordan", - "Lowercase": false, - "Template#": 24 - } - }, - { - "full_text": "My card 4532572288120717 is expiring this month. Please let me know process to it's extend validity.", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4532572288120717", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4532572288120717", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4532572288120717", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expiring", - "idx": 28, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 37, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "month", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "month", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "let", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "let", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 60, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "know", - "idx": 63, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "know", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "process", - "idx": 68, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "process", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 76, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 79, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 81, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "extend", - "idx": 84, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "extend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validity", - "idx": 91, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "validity", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 99, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Finland", - "Lowercase": false, - "Template#": 11 - } - }, - { - "full_text": "I'm moving out of the country, so please cancel my subscription", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "moving", - "idx": 4, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "move", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "out", - "idx": 11, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "out", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "country", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "country", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 29, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 31, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 34, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 41, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 48, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "subscription", - "idx": 51, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "subscription", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Mauritius", - "Lowercase": false, - "Template#": 57 - } - }, - { - "full_text": "I want to add André Souza as a beneficiary to my account", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "André Souza", - "start_position": 14, - "end_position": 25 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "add", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "add", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "André", - "idx": 14, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "André", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Souza", - "idx": 20, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Souza", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 26, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 29, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "beneficiary", - "idx": 31, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "beneficiary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 43, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 46, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Oman", - "Lowercase": false, - "Template#": 51 - } - }, - { - "full_text": "You can tell Szemere was a huge Szemere Szakács fan. Written when he was only 14.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Szemere", - "start_position": 13, - "end_position": 20 - }, - { - "entity_type": "PERSON", - "entity_value": "Szemere Szakács", - "start_position": 32, - "end_position": 47 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Szemere", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Szemere", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 21, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 25, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "huge", - "idx": 27, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "huge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Szemere", - "idx": 32, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Szemere", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Szakács", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Szakács", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fan", - "idx": 48, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 51, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Written", - "idx": 53, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 61, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 66, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 69, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "only", - "idx": 73, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "only", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 78, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 80, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hungarian", - "Country": "Grenada", - "Lowercase": false, - "Template#": 105 - } - }, - { - "full_text": "In Armenia} they have company songs, musical expressions of employee loyalty sung by salarymen. Unfortunately, as regular RR commenter Kian Brennan points out, \"most are horrible\".", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Armenia", - "start_position": 3, - "end_position": 10 - }, - { - "entity_type": "PERSON", - "entity_value": "Kian Brennan", - "start_position": 135, - "end_position": 147 - } - ], - "tokens": [ - { - "text": "In", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Armenia", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Armenia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "}", - "idx": 10, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "}", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 12, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 17, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "company", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "company", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songs", - "idx": 30, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 35, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "musical", - "idx": 37, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "musical", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expressions", - "idx": 45, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "expression", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employee", - "idx": 60, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "employee", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "loyalty", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "loyalty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sung", - "idx": 77, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "sing", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 82, - "tag_": "IN", - "pos_": "ADP", - "dep_": "agent", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "salarymen", - "idx": 85, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "salaryman", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 94, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Unfortunately", - "idx": 96, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "unfortunately", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 109, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 111, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regular", - "idx": 114, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "regular", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "RR", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rr", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "commenter", - "idx": 125, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "commenter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kian", - "idx": 135, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Kian", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brennan", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Brennan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "points", - "idx": 148, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "point", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "out", - "idx": 155, - "tag_": "RP", - "pos_": "ADP", - "dep_": "prt", - "lemma_": "out", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 158, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 160, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "most", - "idx": 161, - "tag_": "JJS", - "pos_": "ADJ", - "dep_": "nsubj", - "lemma_": "most", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 166, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "horrible", - "idx": 170, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "horrible", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 178, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 179, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Armenia", - "Lowercase": false, - "Template#": 111 - } - }, - { - "full_text": "", - "masked": null, - "spans": [], - "tokens": [], - "tags": [], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Hungarian", - "Country": "Qatar", - "Lowercase": false, - "Template#": 125 - } - }, - { - "full_text": "During the 1990s, The Flying Bear invested heavily in new microprocessor designs fostering the rapid growth of the computer industry.", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "The Flying Bear", - "start_position": 18, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "During", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "during", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1990s", - "idx": 11, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "1990", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 16, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Flying", - "idx": 22, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Flying", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bear", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Bear", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "invested", - "idx": 34, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "invest", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "heavily", - "idx": 43, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "heavily", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 54, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "microprocessor", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "microprocessor", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "designs", - "idx": 73, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "design", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fostering", - "idx": 81, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "foster", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 91, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rapid", - "idx": 95, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "rapid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "growth", - "idx": 101, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "growth", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 108, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 111, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "computer", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "computer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "industry", - "idx": 124, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "industry", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 132, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Japanese (Anglicized)", - "Country": "Niger", - "Lowercase": false, - "Template#": 120 - } - }, - { - "full_text": "The true gender of Signe has been under debate for years, but the riff and building energy is a rock masterpiece regardless.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Signe", - "start_position": 19, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "true", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "true", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "gender", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "gender", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Signe", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Signe", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "has", - "idx": 25, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 29, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "debate", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "debate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 47, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "years", - "idx": 51, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "year", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 56, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 58, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 62, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "riff", - "idx": 66, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "riff", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 71, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "building", - "idx": 75, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "building", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "energy", - "idx": 84, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "energy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 91, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "conj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 94, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "rock", - "idx": 96, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "rock", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "masterpiece", - "idx": 101, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "masterpiece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "regardless", - "idx": 113, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "regardless", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 123, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Danish", - "Country": "Middle East", - "Lowercase": false, - "Template#": 94 - } - }, - { - "full_text": "You can tell Monika was a huge Monika Chocholová fan. Written when he was only 14.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Monika", - "start_position": 13, - "end_position": 19 - }, - { - "entity_type": "PERSON", - "entity_value": "Monika Chocholová", - "start_position": 31, - "end_position": 48 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Monika", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Monika", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 20, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 24, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "huge", - "idx": 26, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "huge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Monika", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Monika", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Chocholová", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Chocholová", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fan", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Written", - "idx": 54, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 62, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 67, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 70, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "only", - "idx": 74, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "only", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 79, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 81, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "The Philippines", - "Lowercase": false, - "Template#": 105 - } - }, - { - "full_text": "have you been to a joar sandberg concert before?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "joar sandberg", - "start_position": 19, - "end_position": 32 - } - ], - "tokens": [ - { - "text": "have", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 5, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "been", - "idx": 9, - "tag_": "VBN", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 14, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 17, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "joar", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "amod", - "lemma_": "joar", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sandberg", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "sandberg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concert", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "concert", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "before", - "idx": 41, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "before", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Moldova", - "Lowercase": true, - "Template#": 92 - } - }, - { - "full_text": "May I request to have the statement sent to Truhlářská 996, Pacov 39501?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Truhlářská 996, Pacov 39501", - "start_position": 44, - "end_position": 71 - } - ], - "tokens": [ - { - "text": "May", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "May", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 14, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 17, - "tag_": "VB", - "pos_": "AUX", - "dep_": "xcomp", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 36, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 41, - "tag_": "IN", - "pos_": "ADP", - "dep_": "dative", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Truhlářská", - "idx": 44, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Truhlářská", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "996", - "idx": 55, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "996", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 58, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pacov", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Pacov", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "39501", - "idx": 66, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "39501", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 71, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "Israel", - "Lowercase": false, - "Template#": 38 - } - }, - { - "full_text": "Can I withdraw cash using my card 4929950890674928 at aTM center ?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "4929950890674928", - "start_position": 34, - "end_position": 50 - } - ], - "tokens": [ - { - "text": "Can", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "withdraw", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "withdraw", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cash", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "cash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "using", - "idx": 20, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "use", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 26, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4929950890674928", - "idx": 34, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "4929950890674928", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 51, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "aTM", - "idx": 54, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "punct", - "lemma_": "aTM", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "center", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "center", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 65, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Tanzania", - "Lowercase": false, - "Template#": 18 - } - }, - { - "full_text": "May I request to have the statement sent to 47 Moatsou Street, Trozaina 4781?", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "47 Moatsou Street, Trozaina 4781", - "start_position": 44, - "end_position": 76 - } - ], - "tokens": [ - { - "text": "May", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "May", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "request", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "request", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 14, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "have", - "idx": 17, - "tag_": "VB", - "pos_": "AUX", - "dep_": "xcomp", - "lemma_": "have", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 22, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "statement", - "idx": 26, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "statement", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "sent", - "idx": 36, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 41, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "47", - "idx": 44, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "47", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Moatsou", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Moatsou", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Street", - "idx": 55, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Street", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 61, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Trozaina", - "idx": 63, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Trozaina", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4781", - "idx": 72, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4781", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 76, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Czech", - "Country": "Scotland", - "Lowercase": false, - "Template#": 38 - } - }, - { - "full_text": "My website is ", - "masked": null, - "spans": [ - { - "entity_type": "URL", - "entity_value": "", - "start_position": 14, - "end_position": 14 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "website", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "website", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 11, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "Vatican City", - "Lowercase": false, - "Template#": 78 - } - }, - { - "full_text": "Please send my portfolio to this email MakarMaslow@teleworm.us", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "MakarMaslow@teleworm.us", - "start_position": 39, - "end_position": 62 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "send", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "send", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 12, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "portfolio", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "portfolio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 28, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "email", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "email", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "MakarMaslow@teleworm.us", - "idx": 39, - "tag_": "ADD", - "pos_": "X", - "dep_": "punct", - "lemma_": "makarmaslow@teleworm.us", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Canada", - "Lowercase": false, - "Template#": 49 - } - }, - { - "full_text": "This song by ex-Zombie Mazzi is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Mazzi", - "start_position": 23, - "end_position": 28 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mazzi", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Mazzi", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 29, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 32, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 34, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 53, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 57, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 61, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 67, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 71, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 83, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 86, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 90, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 96, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 99, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 104, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 108, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 110, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 113, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 122, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 128, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 131, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 136, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 141, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 146, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 153, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 156, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 159, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 166, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 169, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 171, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 175, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 177, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 182, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 186, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 192, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 197, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 199, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Italian", - "Country": "Panama", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "Zita, can I please speak to your boss?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Zita", - "start_position": 0, - "end_position": 4 - } - ], - "tokens": [ - { - "text": "Zita", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "npadvmod", - "lemma_": "Zita", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 4, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 6, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 10, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 12, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "speak", - "idx": 19, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 25, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 28, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boss", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boss", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 37, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Czech", - "Country": "Egypt", - "Lowercase": false, - "Template#": 37 - } - }, - { - "full_text": "CAN I SPEAK TO A REAL PERSON?!?!", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "CAN", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "CAN", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 4, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SPEAK", - "idx": 6, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "speak", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TO", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 15, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "REAL", - "idx": 17, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "real", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "PERSON", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "person", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 28, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 29, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 30, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "!", - "idx": 31, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "!", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Ukraine", - "Lowercase": false, - "Template#": 44 - } - }, - { - "full_text": "From the film American graffiti (also features Archie Hunt. What's not to love?", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Archie Hunt", - "start_position": 47, - "end_position": 58 - } - ], - "tokens": [ - { - "text": "From", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 5, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "film", - "idx": 9, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "film", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "American", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "american", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "graffiti", - "idx": 23, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "graffiti", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 32, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "also", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "also", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "features", - "idx": 38, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "feature", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Archie", - "idx": 47, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Archie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hunt", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Hunt", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 58, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 60, - "tag_": "WP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 64, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 67, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 71, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "love", - "idx": 74, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "England/Wales", - "Country": "Peru", - "Lowercase": false, - "Template#": 104 - } - }, - { - "full_text": "Asian Answers songwriter Þórbergur Þorleifsson employs corporate lingo in the first verse of his Harold'S Resignation Letter", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "Asian Answers", - "start_position": 0, - "end_position": 13 - }, - { - "entity_type": "PERSON", - "entity_value": "Þórbergur Þorleifsson", - "start_position": 25, - "end_position": 46 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Harold'S", - "start_position": 97, - "end_position": 105 - } - ], - "tokens": [ - { - "text": "Asian", - "idx": 0, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "compound", - "lemma_": "asian", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Answers", - "idx": 6, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Answers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "songwriter", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "songwriter", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Þórbergur", - "idx": 25, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Þórbergur", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Þorleifsson", - "idx": 35, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Þorleifsson", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "employs", - "idx": 47, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "employ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "corporate", - "idx": 55, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "corporate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lingo", - "idx": 65, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "lingo", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 71, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 74, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 78, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "verse", - "idx": 84, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "verse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 90, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "his", - "idx": 93, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Harold", - "idx": 97, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Harold", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'S", - "idx": 103, - "tag_": "POS", - "pos_": "PART", - "dep_": "compound", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Resignation", - "idx": 106, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "resignation", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Letter", - "idx": 118, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "letter", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Uzbekistan", - "Lowercase": false, - "Template#": 113 - } - } -] \ No newline at end of file diff --git a/tests/data/generated_small.json b/tests/data/generated_small.json new file mode 100644 index 0000000..ccda22f --- /dev/null +++ b/tests/data/generated_small.json @@ -0,0 +1,4836 @@ +[ + { + "full_text": "Please block card no 5353410735290150", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5353410735290150", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "Nera Economic Consulting songwriter Dana Tanguay employs corporate lingo in the first verse of her Walk Score resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Walk Score", + "start_position": 99, + "end_position": 109 + }, + { + "entity_type": "PERSON", + "entity_value": "Dana Tanguay", + "start_position": 36, + "end_position": 48 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Nera Economic Consulting", + "start_position": 0, + "end_position": 24 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "Mercado began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of RANDWICK.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "RANDWICK", + "start_position": 162, + "end_position": 170 + }, + { + "entity_type": "PERSON", + "entity_value": "Mercado", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "Popvox is an peruvian multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "peruvian", + "start_position": 13, + "end_position": 21 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Popvox", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "Robinson Yu songwriter Vanessa Hansson employs corporate lingo in the first verse of her Synthicity resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Synthicity", + "start_position": 89, + "end_position": 99 + }, + { + "entity_type": "PERSON", + "entity_value": "Vanessa Hansson", + "start_position": 23, + "end_position": 38 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Robinson Yu", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "My card 5216928585575054 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5216928585575054", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Fastcase website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Fastcase", + "start_position": 257, + "end_position": 265 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "The Openplans Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Saudi Arabia", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Saudi Arabia", + "start_position": 163, + "end_position": 175 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Openplans", + "start_position": 4, + "end_position": 13 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Crowdanalytix website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Crowdanalytix", + "start_position": 257, + "end_position": 270 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "have you heard Deborah Nyström speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Deborah Nyström", + "start_position": 15, + "end_position": 30 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4485307174365135?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485307174365135", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 4532358121773585", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532358121773585", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "have you heard Anna Cunningham speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Anna Cunningham", + "start_position": 15, + "end_position": 30 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "I will be travelling to Belgium next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Belgium", + "start_position": 24, + "end_position": 31 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "I will be travelling to Austria next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Austria", + "start_position": 24, + "end_position": 31 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Lori Filemonsen\nBiovia\nTavcarjeva 44 Martinsson Street\n Suite 594\n Šentjur\n Seychelles 67076\nMobile: 077 5138 5842\nDesk: 960-745-7132\nFax: (872)942-5270", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(872)942-5270", + "start_position": 139, + "end_position": 152 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "960-745-7132", + "start_position": 121, + "end_position": 133 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "077 5138 5842", + "start_position": 101, + "end_position": 114 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Tavcarjeva 44 Martinsson Street\n Suite 594\n Šentjur\n Seychelles 67076", + "start_position": 23, + "end_position": 92 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Biovia", + "start_position": 16, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Lori Filemonsen", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Xdayta website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Xdayta", + "start_position": 257, + "end_position": 263 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "what is procedure to redeem points won on credit card 5355185601837148 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5355185601837148", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "The Wemakeitsafer Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Nauru", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Nauru", + "start_position": 167, + "end_position": 172 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Wemakeitsafer", + "start_position": 4, + "end_position": 17 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "have you heard Pedro Knutsen speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Pedro Knutsen", + "start_position": 15, + "end_position": 28 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 4556030179766628 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556030179766628", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "have you heard Kevin Boros speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Kevin Boros", + "start_position": 15, + "end_position": 26 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "Jon Montez\nWeather Decision Technologies\n79 Hauptplatz 52\nBrügglen\n, nan\n Serbia 29689\nMobile: 418-809-0102\nDesk: 569.741.6216x88293\nFax: +1-419-280-3200x4259", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-419-280-3200x4259", + "start_position": 138, + "end_position": 158 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "569.741.6216x88293", + "start_position": 114, + "end_position": 132 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "418-809-0102", + "start_position": 95, + "end_position": 107 + }, + { + "entity_type": "ADDRESS", + "entity_value": "79 Hauptplatz 52\nBrügglen\n, nan\n Serbia 29689", + "start_position": 41, + "end_position": 86 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Weather Decision Technologies", + "start_position": 11, + "end_position": 40 + }, + { + "entity_type": "PERSON", + "entity_value": "Jon Montez", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 4916185548219488", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916185548219488", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "ZIP: 30416", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "30416", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "have you heard Matthew Savolainen speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Matthew Savolainen", + "start_position": 15, + "end_position": 33 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "The Lilly Open Innovation Drug Discovery Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Maldives", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Maldives", + "start_position": 190, + "end_position": 198 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Lilly Open Innovation Drug Discovery", + "start_position": 4, + "end_position": 40 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Ribeirão by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Ribeirão", + "start_position": 113, + "end_position": 121 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 4929008092836538 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929008092836538", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "H&M is an turkmen multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "turkmen", + "start_position": 10, + "end_position": 17 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "H&M", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Los Angeles by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Los Angeles", + "start_position": 113, + "end_position": 124 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4556133544926792?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556133544926792", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Vimo website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Vimo", + "start_position": 257, + "end_position": 261 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "ZIP: 09301", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "09301", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Ortumäe by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Ortumäe", + "start_position": 113, + "end_position": 120 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "Enervee Corporation songwriter Christina Querry employs corporate lingo in the first verse of her The Bridgespan Group resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "The Bridgespan Group", + "start_position": 98, + "end_position": 118 + }, + { + "entity_type": "PERSON", + "entity_value": "Christina Querry", + "start_position": 31, + "end_position": 47 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Enervee Corporation", + "start_position": 0, + "end_position": 19 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to USCGC Pisano\nFPO AE 93574?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USCGC Pisano\nFPO AE 93574", + "start_position": 44, + "end_position": 69 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? 03 Rua Professor Franca 254 Apt. 667 Salvador Bahia", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "03 Rua Professor Franca 254 Apt. 667 Salvador Bahia", + "start_position": 81, + "end_position": 132 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "ZIP: 95204", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "95204", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 5477273611346210 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5477273611346210", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 5380592656804262 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5380592656804262", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "Amanda Yamanaka\nBillguard\n57 Maaningantie 93\nKostelec nad Cernými Lesy, ST 31432\nMobile: 044 596 18 66\nDesk: 001-850-188-4872x117\nFax: 892.350.8102x0464", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "892.350.8102x0464", + "start_position": 135, + "end_position": 152 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-850-188-4872x117", + "start_position": 109, + "end_position": 129 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "044 596 18 66", + "start_position": 89, + "end_position": 102 + }, + { + "entity_type": "ADDRESS", + "entity_value": "57 Maaningantie 93\nKostelec nad Cernými Lesy, ST 31432", + "start_position": 26, + "end_position": 80 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Billguard", + "start_position": 16, + "end_position": 25 + }, + { + "entity_type": "PERSON", + "entity_value": "Amanda Yamanaka", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4485333736981003?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485333736981003", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "I will be travelling to Central African Republic next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Central African Republic", + "start_position": 24, + "end_position": 48 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "I will be travelling to Seychelles next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Seychelles", + "start_position": 24, + "end_position": 34 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 05 70 Scarcroft Road Suite 408, SPRING FLAT, Equatorial Guinea 10040?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "05 70 Scarcroft Road Suite 408, SPRING FLAT, Equatorial Guinea 10040", + "start_position": 44, + "end_position": 112 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "I will be travelling to Saudi Arabia next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Saudi Arabia", + "start_position": 24, + "end_position": 36 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 4716706982349457", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716706982349457", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "The Citysourced Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Liechtenstein", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Liechtenstein", + "start_position": 165, + "end_position": 178 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Citysourced", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Longo began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of SAINT-DIÉ.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "SAINT-DIÉ", + "start_position": 160, + "end_position": 169 + }, + { + "entity_type": "PERSON", + "entity_value": "Longo", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "i will be travelling to philippines next week, so i need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "philippines", + "start_position": 24, + "end_position": 35 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Pereces by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Pereces", + "start_position": 113, + "end_position": 120 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 34 Brisas 4258 Suite 952 Marindia CA?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "34 Brisas 4258 Suite 952 Marindia CA", + "start_position": 44, + "end_position": 80 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? Unit 3414 Box 1638\nDPO AE 86082", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 3414 Box 1638\nDPO AE 86082", + "start_position": 81, + "end_position": 112 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "what is procedure to redeem points won on credit card 5368615400234217 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5368615400234217", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "ZIP: 04526", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "04526", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "The Informatica Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Burundi", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Burundi", + "start_position": 165, + "end_position": 172 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Informatica", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Findthebestcom website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Findthebestcom", + "start_position": 257, + "end_position": 271 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "I will be travelling to Uzbekistan next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Uzbekistan", + "start_position": 24, + "end_position": 34 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "ZIP: 23437", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "23437", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 5393486841138105", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5393486841138105", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 5284452163764318", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5284452163764318", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "Cerner is an lebanese multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "lebanese", + "start_position": 13, + "end_position": 21 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Cerner", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Cite El Mahrsi 1 by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cite El Mahrsi 1", + "start_position": 113, + "end_position": 129 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 20 13 Rosebank Place Suite 204 Taita Lower Hutt?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "20 13 Rosebank Place Suite 204 Taita Lower Hutt", + "start_position": 44, + "end_position": 91 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "I will be travelling to Palestine next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Palestine", + "start_position": 24, + "end_position": 33 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "My card 5524827381571142 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5524827381571142", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Lara-Cruz website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Lara-Cruz", + "start_position": 257, + "end_position": 266 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "CGI songwriter Maria Ellis employs corporate lingo in the first verse of her Openplans resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Openplans", + "start_position": 77, + "end_position": 86 + }, + { + "entity_type": "PERSON", + "entity_value": "Maria Ellis", + "start_position": 15, + "end_position": 26 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "CGI", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "Asplund began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of Amsterdam.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Amsterdam", + "start_position": 162, + "end_position": 171 + }, + { + "entity_type": "PERSON", + "entity_value": "Asplund", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "tonya gorski\ntableau software\n93 rauhankatu 91\nchakmou, 72 36160\nmobile: 062 441 80 19\ndesk: 605-706-9166x06739\nfax: (972)541-9119", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(972)541-9119", + "start_position": 117, + "end_position": 130 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "605-706-9166x06739", + "start_position": 93, + "end_position": 111 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "062 441 80 19", + "start_position": 73, + "end_position": 86 + }, + { + "entity_type": "ADDRESS", + "entity_value": "93 rauhankatu 91\nchakmou, 72 36160", + "start_position": 30, + "end_position": 64 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "tableau software", + "start_position": 13, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "tonya gorski", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "mission statement: this non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the the bill & melinda gates foundation website. they offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "the bill & melinda gates foundation", + "start_position": 257, + "end_position": 292 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 4485721294679995", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485721294679995", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 04 287 Syntagma Square Suite 499 Karpaseia Iceland?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "04 287 Syntagma Square Suite 499 Karpaseia Iceland", + "start_position": 44, + "end_position": 94 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "at my suggestion, one morning over breakfast, she agreed, and on the last sunday before labor day we returned to erwetegem by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "erwetegem", + "start_position": 113, + "end_position": 122 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "My card 4716402611454369 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716402611454369", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "The Watersmart Software Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern The Gambia", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "The Gambia", + "start_position": 173, + "end_position": 183 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Watersmart Software", + "start_position": 4, + "end_position": 23 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "I will be travelling to Senegal next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Senegal", + "start_position": 24, + "end_position": 31 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Anthony Klug\n23 And Me\nFaaborgvej 45 Jansson Street\n Apt. 495\n København V\n Kiribati 83273\nMobile: 926 82 032\nDesk: (703)728-6632x53161\nFax: 612-641-6210", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "612-641-6210", + "start_position": 141, + "end_position": 153 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(703)728-6632x53161", + "start_position": 116, + "end_position": 135 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "926 82 032", + "start_position": 99, + "end_position": 109 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Faaborgvej 45 Jansson Street\n Apt. 495\n København V\n Kiribati 83273", + "start_position": 23, + "end_position": 90 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "23 And Me", + "start_position": 13, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Anthony Klug", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "have you heard kimberly kovačević speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "kimberly kovačević", + "start_position": 15, + "end_position": 33 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "McConnan began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of ΜΟΝΗ ΑΓΙΩΝ ΑΝΑΡΓΥΡΩΝ.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ΜΟΝΗ ΑΓΙΩΝ ΑΝΑΡΓΥΡΩΝ", + "start_position": 163, + "end_position": 183 + }, + { + "entity_type": "PERSON", + "entity_value": "McConnan", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? 43 52 Broomfield Place\nHÉNIN-BEAUMONT\n, NP\n 59907", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "43 52 Broomfield Place\nHÉNIN-BEAUMONT\n, NP\n 59907", + "start_position": 81, + "end_position": 130 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "My card 4532037815843934 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532037815843934", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Harry Sørensen\nEllis-Ingram\n51 Liisankatu 56\nRossano Stazione, CS 14182\nMobile: 604-724-4685\nDesk: 001-762-345-9062x02300\nFax: +1-631-570-8724x039", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-631-570-8724x039", + "start_position": 127, + "end_position": 146 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-762-345-9062x02300", + "start_position": 99, + "end_position": 121 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "604-724-4685", + "start_position": 80, + "end_position": 92 + }, + { + "entity_type": "ADDRESS", + "entity_value": "51 Liisankatu 56\nRossano Stazione, CS 14182", + "start_position": 28, + "end_position": 71 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ellis-Ingram", + "start_position": 15, + "end_position": 27 + }, + { + "entity_type": "PERSON", + "entity_value": "Harry Sørensen", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Marshfield by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Marshfield", + "start_position": 113, + "end_position": 123 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "have you heard david symanski speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "david symanski", + "start_position": 15, + "end_position": 29 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "Please block card no 5176639922680295", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5176639922680295", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Intelius website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Intelius", + "start_position": 257, + "end_position": 265 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "my card 4556980810136591 expires soon ן¿½ when will i get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556980810136591", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "I will be travelling to Seychelles next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Seychelles", + "start_position": 24, + "end_position": 34 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Bradley Umkhayev\nFirstpoint Inc\n99 4376 Port Washington Road Suite 110, Walkringen, South Africa 51732\nMobile: 432 5439\nDesk: +1-464-485-5826x90201\nFax: 472-549-6631", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "472-549-6631", + "start_position": 153, + "end_position": 165 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-464-485-5826x90201", + "start_position": 126, + "end_position": 147 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "432 5439", + "start_position": 111, + "end_position": 119 + }, + { + "entity_type": "ADDRESS", + "entity_value": "99 4376 Port Washington Road Suite 110, Walkringen, South Africa 51732", + "start_position": 32, + "end_position": 102 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Firstpoint Inc", + "start_position": 17, + "end_position": 31 + }, + { + "entity_type": "PERSON", + "entity_value": "Bradley Umkhayev", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "My card 4539980160229196 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539980160229196", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? Thaddeus and Merineitsi põik 55", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Thaddeus and Merineitsi põik 55", + "start_position": 81, + "end_position": 112 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "The Thinknum Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Bahrain", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bahrain", + "start_position": 162, + "end_position": 169 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Thinknum", + "start_position": 4, + "end_position": 12 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 4556611684375466 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556611684375466", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "at my suggestion, one morning over breakfast, she agreed, and on the last sunday before labor day we returned to λεμεσος by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "λεμεσος", + "start_position": 113, + "end_position": 120 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 4485504409937247", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485504409937247", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? 91 53 place Stanislas\nTolmin\n, nan\n Jordan 02489", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "91 53 place Stanislas\nTolmin\n, nan\n Jordan 02489", + "start_position": 81, + "end_position": 129 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "Verdafero is an surinamese multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "surinamese", + "start_position": 16, + "end_position": 26 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Verdafero", + "start_position": 0, + "end_position": 9 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? the corner of Amsinckstrasse 50 and Czerwinski Street", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Amsinckstrasse 50 and Czerwinski Street", + "start_position": 81, + "end_position": 134 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 5538022454680970", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5538022454680970", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "Muslija began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of El Tanque.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "El Tanque", + "start_position": 162, + "end_position": 171 + }, + { + "entity_type": "PERSON", + "entity_value": "Muslija", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? USNS Dalgety\nFPO AP 00245", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNS Dalgety\nFPO AP 00245", + "start_position": 81, + "end_position": 106 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "what is procedure to redeem points won on credit card 5429790160916001 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5429790160916001", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? USS Gersten\nFPO AP 26165", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USS Gersten\nFPO AP 26165", + "start_position": 81, + "end_position": 105 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "Cb Insights is an chilean multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "chilean", + "start_position": 18, + "end_position": 25 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Cb Insights", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "Please block card no 4929272729244827", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929272729244827", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "MysticWeb is an laotian multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "laotian", + "start_position": 16, + "end_position": 23 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "MysticWeb", + "start_position": 0, + "end_position": 9 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? 49 Linzer Strasse 69, Mechanics Bay, Zimbabwe", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "49 Linzer Strasse 69, Mechanics Bay, Zimbabwe", + "start_position": 81, + "end_position": 126 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 4485474725243235 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485474725243235", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "Dvořáčková began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of STAINS.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "STAINS", + "start_position": 165, + "end_position": 171 + }, + { + "entity_type": "PERSON", + "entity_value": "Dvořáčková", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "I will be travelling to Bahamas next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bahamas", + "start_position": 24, + "end_position": 31 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 64 Kolodvorska 97\n Apt. 377\n Križe\n Canada 87460?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "64 Kolodvorska 97\n Apt. 377\n Križe\n Canada 87460", + "start_position": 44, + "end_position": 92 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "Adaptive songwriter Beverly Schwarz employs corporate lingo in the first verse of her Vizzuality resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Vizzuality", + "start_position": 86, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Beverly Schwarz", + "start_position": 20, + "end_position": 35 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Adaptive", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "Khadzhiyev began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of Barrie.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Barrie", + "start_position": 165, + "end_position": 171 + }, + { + "entity_type": "PERSON", + "entity_value": "Khadzhiyev", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the First Fuel Software website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "First Fuel Software", + "start_position": 257, + "end_position": 276 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "My card 5584420480835498 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5584420480835498", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Inovalon website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Inovalon", + "start_position": 257, + "end_position": 265 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Kangaatsiaq by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kangaatsiaq", + "start_position": 113, + "end_position": 124 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "The Infocommerce Group Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Egypt", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Egypt", + "start_position": 172, + "end_position": 177 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Infocommerce Group", + "start_position": 4, + "end_position": 22 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 5538320257379844", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5538320257379844", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "i will be travelling to egypt next week, so i need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "egypt", + "start_position": 24, + "end_position": 29 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 4532556821540960 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4532556821540960", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 5174325655924462?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5174325655924462", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? 74 51 rue de la Mare aux Carats\nKostelec nad Cernými Lesy, ST 95042", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "74 51 rue de la Mare aux Carats\nKostelec nad Cernými Lesy, ST 95042", + "start_position": 81, + "end_position": 148 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "sap is an andorran multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "andorran", + "start_position": 10, + "end_position": 18 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "sap", + "start_position": 0, + "end_position": 3 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "The Rapid Cycle Solutions Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Qatar", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Qatar", + "start_position": 175, + "end_position": 180 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Rapid Cycle Solutions", + "start_position": 4, + "end_position": 25 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Tamara Myers\nBrown-Oneal\n59 Dayka Gábor u. 18.\n Suite 359\n Miske\n Bhutan\nMobile: 9884 5744\nDesk: 001-936-540-4917x84147\nFax: 177-987-0583x451", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "177-987-0583x451", + "start_position": 125, + "end_position": 141 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-936-540-4917x84147", + "start_position": 97, + "end_position": 119 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "9884 5744", + "start_position": 81, + "end_position": 90 + }, + { + "entity_type": "ADDRESS", + "entity_value": "59 Dayka Gábor u. 18.\n Suite 359\n Miske\n Bhutan", + "start_position": 25, + "end_position": 72 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Brown-Oneal", + "start_position": 13, + "end_position": 24 + }, + { + "entity_type": "PERSON", + "entity_value": "Tamara Myers", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "have you heard Alicia LeBatelier speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Alicia LeBatelier", + "start_position": 15, + "end_position": 32 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4716081479776061?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716081479776061", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Bobrová by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bobrová", + "start_position": 113, + "end_position": 120 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "Perry-Sullivan is an bahraini multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "bahraini", + "start_position": 21, + "end_position": 29 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Perry-Sullivan", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "Stacy Mitnjek\nCorelogic\nPSC 9973, Box 2786\nAPO AE 82135\nMobile: 347-747-3907\nDesk: +1-455-539-5763\nFax: (060)581-1678x6437", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(060)581-1678x6437", + "start_position": 104, + "end_position": 122 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-455-539-5763", + "start_position": 83, + "end_position": 98 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "347-747-3907", + "start_position": 64, + "end_position": 76 + }, + { + "entity_type": "ADDRESS", + "entity_value": "PSC 9973, Box 2786\nAPO AE 82135", + "start_position": 24, + "end_position": 55 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Corelogic", + "start_position": 14, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Stacy Mitnjek", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "zip: 45065", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "45065", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 68 Escuadro 26 Apt. 997 Castelló de Rugat Guatemala?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "68 Escuadro 26 Apt. 997 Castelló de Rugat Guatemala", + "start_position": 44, + "end_position": 95 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "I will be travelling to United Kingdom next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "United Kingdom", + "start_position": 24, + "end_position": 38 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "The Investormill Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Vatican City", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Vatican City", + "start_position": 166, + "end_position": 178 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Investormill", + "start_position": 4, + "end_position": 16 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "have you heard Aaron Nishiyama speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Aaron Nishiyama", + "start_position": 15, + "end_position": 30 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? 82 30 Todd Street, Conifer Grove, Republic of Ireland", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "82 30 Todd Street, Conifer Grove, Republic of Ireland", + "start_position": 81, + "end_position": 134 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4929076652866674?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929076652866674", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "My card 4916967201405912 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916967201405912", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Mota del Cuervo by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Mota del Cuervo", + "start_position": 113, + "end_position": 128 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "Stephanie Eriksson MD\nSocrata\n19 Orrspelsv 49 Suite 016 LYCKSELE Democratic Republic of the Congo\nMobile: 306-323-0194\nDesk: (424)197-9863x327\nFax: 410-822-0041x741", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "410-822-0041x741", + "start_position": 148, + "end_position": 164 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(424)197-9863x327", + "start_position": 125, + "end_position": 142 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "306-323-0194", + "start_position": 106, + "end_position": 118 + }, + { + "entity_type": "ADDRESS", + "entity_value": "19 Orrspelsv 49 Suite 016 LYCKSELE Democratic Republic of the Congo", + "start_position": 30, + "end_position": 97 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Socrata", + "start_position": 22, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Eriksson MD", + "start_position": 0, + "end_position": 21 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "My card 4556355092912227 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556355092912227", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4716752239540480?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716752239540480", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "have you heard Leslie Barese speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Leslie Barese", + "start_position": 15, + "end_position": 28 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 5458212250657274", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5458212250657274", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "could you please email me the statement for last month , my credit card number is 5188934177413187?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5188934177413187", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "I will be travelling to Estonia next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Estonia", + "start_position": 24, + "end_position": 31 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4539626214210951?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539626214210951", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "have you heard Mark Svendsen speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mark Svendsen", + "start_position": 15, + "end_position": 28 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 40 Rua Soldado Joaquim Xavier 1471\nGarður\n, nan\n Tuvalu 09728?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "40 Rua Soldado Joaquim Xavier 1471\nGarður\n, nan\n Tuvalu 09728", + "start_position": 44, + "end_position": 105 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "The Accuweather Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Belgium", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Belgium", + "start_position": 165, + "end_position": 172 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Accuweather", + "start_position": 4, + "end_position": 15 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Krause began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of Bottle Lake.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bottle Lake", + "start_position": 161, + "end_position": 172 + }, + { + "entity_type": "PERSON", + "entity_value": "Krause", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "zip: 40447", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "40447", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Clark, Romero and Hall is an ugandan multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "ugandan", + "start_position": 29, + "end_position": 36 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Clark, Romero and Hall", + "start_position": 0, + "end_position": 22 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "Christopher Arnold\nHealthline\n68 Zeppelinstr 70\n Apt. 418\n WENG IM GESÄUSE\n Malaysia 01102\nMobile: 0478 85 38 64\nDesk: (639)037-8792\nFax: (655)656-0958", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(655)656-0958", + "start_position": 138, + "end_position": 151 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(639)037-8792", + "start_position": 119, + "end_position": 132 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0478 85 38 64", + "start_position": 99, + "end_position": 112 + }, + { + "entity_type": "ADDRESS", + "entity_value": "68 Zeppelinstr 70\n Apt. 418\n WENG IM GESÄUSE\n Malaysia 01102", + "start_position": 30, + "end_position": 90 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Healthline", + "start_position": 19, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Christopher Arnold", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 29 Bygget 64 Apt. 214 ANNERSTAD nan?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "29 Bygget 64 Apt. 214 ANNERSTAD nan", + "start_position": 44, + "end_position": 79 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "My card 4485620055256284 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485620055256284", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "The Healthgrades Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Australia", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Australia", + "start_position": 166, + "end_position": 175 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Healthgrades", + "start_position": 4, + "end_position": 16 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? Brahim and Messedamm 28", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Brahim and Messedamm 28", + "start_position": 81, + "end_position": 104 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "The Valentine-Murray Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Cyprus", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cyprus", + "start_position": 170, + "end_position": 176 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Valentine-Murray", + "start_position": 4, + "end_position": 20 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Robert Åström\nThinknum\nUnit 8554 Box 1155\nDPO AP 73399\nMobile: 22 674594\nDesk: 341-164-8021\nFax: 9561126816", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "9561126816", + "start_position": 97, + "end_position": 107 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "341-164-8021", + "start_position": 79, + "end_position": 91 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "22 674594", + "start_position": 63, + "end_position": 72 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Unit 8554 Box 1155\nDPO AP 73399", + "start_position": 23, + "end_position": 54 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Thinknum", + "start_position": 14, + "end_position": 22 + }, + { + "entity_type": "PERSON", + "entity_value": "Robert Åström", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4929027755204651?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929027755204651", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "ZIP: 75181", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "75181", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Municode is an north-american multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "north-american", + "start_position": 15, + "end_position": 29 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Municode", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "Major began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of Ždárec.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Ždárec", + "start_position": 160, + "end_position": 166 + }, + { + "entity_type": "PERSON", + "entity_value": "Major", + "start_position": 0, + "end_position": 5 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "ZIP: 66179", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "66179", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "please block card no 5461217502709570", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5461217502709570", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "ZIP: 50510", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "50510", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 10 63 Rue de Kairouan Suite 114 Cite El Farik Governorate Monastir?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "10 63 Rue de Kairouan Suite 114 Cite El Farik Governorate Monastir", + "start_position": 44, + "end_position": 110 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 4716453341192365 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716453341192365", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 5381905086337951?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5381905086337951", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "possibilityu is an djiboutian multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "djiboutian", + "start_position": 19, + "end_position": 29 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "possibilityu", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 4485161656137383 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485161656137383", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 5513923890305594 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5513923890305594", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to the corner of 93 rue des six frères Ruellan and Mužinčič Street?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of 93 rue des six frères Ruellan and Mužinčič Street", + "start_position": 44, + "end_position": 107 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "have you heard Matthew Bryndísardóttir speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Matthew Bryndísardóttir", + "start_position": 15, + "end_position": 38 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "I will be travelling to Singapore next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Singapore", + "start_position": 24, + "end_position": 33 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "My card 4556884798485816 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556884798485816", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "The White, Nelson and Townsend Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Liberia", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Liberia", + "start_position": 180, + "end_position": 187 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "White, Nelson and Townsend", + "start_position": 4, + "end_position": 30 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "not getting bank documents to my address. can you please validate the following? 46 88 rue galboun ibn al hassen\ndutovlje\n, nan\n 02887", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "46 88 rue galboun ibn al hassen\ndutovlje\n, nan\n 02887", + "start_position": 81, + "end_position": 134 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "My card 5366040663846551 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5366040663846551", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "My card 4929774838889186 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4929774838889186", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Xcential is an european multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "european", + "start_position": 15, + "end_position": 23 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Xcential", + "start_position": 0, + "end_position": 8 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Philadelphia by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Philadelphia", + "start_position": 113, + "end_position": 125 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "My card 5284888703083265 expires soon ן¿½ when will I get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5284888703083265", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Please block card no 5114404520489614", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5114404520489614", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "i will be travelling to italy next week, so i need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "italy", + "start_position": 24, + "end_position": 29 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Maastricht by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Maastricht", + "start_position": 113, + "end_position": 123 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 4916057635275220", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4916057635275220", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "Chad Nygaard\nEvans-Bonilla\n76 13 Faubourg Saint Honoré\nLoiu, BB 73239\nMobile: 78 318 850\nDesk: (466)166-0982x401\nFax: 015-104-1129x909", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "015-104-1129x909", + "start_position": 118, + "end_position": 134 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(466)166-0982x401", + "start_position": 95, + "end_position": 112 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "78 318 850", + "start_position": 78, + "end_position": 88 + }, + { + "entity_type": "ADDRESS", + "entity_value": "76 13 Faubourg Saint Honoré\nLoiu, BB 73239", + "start_position": 27, + "end_position": 69 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Evans-Bonilla", + "start_position": 13, + "end_position": 26 + }, + { + "entity_type": "PERSON", + "entity_value": "Chad Nygaard", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "I will be travelling to Costa Rica next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Costa Rica", + "start_position": 24, + "end_position": 34 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to MÜLLNERN by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "MÜLLNERN", + "start_position": 113, + "end_position": 121 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "ZIP: 16683", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "16683", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Powers-Garcia is an iranian multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "iranian", + "start_position": 20, + "end_position": 27 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Powers-Garcia", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 1783 49th Avenue Enoksen Street\n Suite 342\n Cape Dorset\n Austria 64982?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "1783 49th Avenue Enoksen Street\n Suite 342\n Cape Dorset\n Austria 64982", + "start_position": 44, + "end_position": 114 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "have you heard Deborah Marín speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Deborah Marín", + "start_position": 15, + "end_position": 28 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "my card 4556946687414437 expires soon ן¿½ when will i get a new one?", + "masked": "My card {{credit_card_number}} expires soon ן¿½ when will I get a new one?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4556946687414437", + "start_position": 8, + "end_position": 24 + } + ], + "template_id": 14, + "metadata": null + }, + { + "full_text": "Christy Popović\nLoveland Technologies\n88 Rua E 330\nMarke\n, VWV\n South Korea 41021\nMobile: 79 749 74 51\nDesk: 771.605.0109x7679\nFax: 715.984.7556", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "715.984.7556", + "start_position": 132, + "end_position": 144 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "771.605.0109x7679", + "start_position": 109, + "end_position": 126 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "79 749 74 51", + "start_position": 90, + "end_position": 102 + }, + { + "entity_type": "ADDRESS", + "entity_value": "88 Rua E 330\nMarke\n, VWV\n South Korea 41021", + "start_position": 38, + "end_position": 81 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Loveland Technologies", + "start_position": 16, + "end_position": 37 + }, + { + "entity_type": "PERSON", + "entity_value": "Christy Popović", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 4485829105912446", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4485829105912446", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "have you heard Mr. Michael Martins speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mr. Michael Martins", + "start_position": 15, + "end_position": 34 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "ZIP: 10922", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "10922", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Truecar is an vietnamese multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "vietnamese", + "start_position": 14, + "end_position": 24 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Truecar", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "The Kaiser Permanante Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Madagascar", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Madagascar", + "start_position": 171, + "end_position": 181 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Kaiser Permanante", + "start_position": 4, + "end_position": 21 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "what ??? i don't know what to press next!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "Not getting bank documents to my address. Can you please validate the following? 78 Árpád fejedelem útja 89.\nSt Hyacinthe, QC 26379", + "masked": "Not getting bank documents to my address. Can you please validate the following? {{address}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "78 Árpád fejedelem útja 89.\nSt Hyacinthe, QC 26379", + "start_position": 81, + "end_position": 131 + } + ], + "template_id": 7, + "metadata": null + }, + { + "full_text": "the connectdot llc orchestra was founded in 1929. since then, the tso has grown from a volunteer community orchestra to a fully professional orchestra serving southern benin", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "benin", + "start_position": 168, + "end_position": 173 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "connectdot llc", + "start_position": 4, + "end_position": 18 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "have you heard Mary Payne speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Mary Payne", + "start_position": 15, + "end_position": 25 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to Unit 7161 Box 5055\nDPO AP 93119?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "Unit 7161 Box 5055\nDPO AP 93119", + "start_position": 44, + "end_position": 75 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "have you heard nicole azevedo speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "nicole azevedo", + "start_position": 15, + "end_position": 29 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "Autogrid Systems songwriter Catherine Pham employs corporate lingo in the first verse of her CBS resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "CBS", + "start_position": 93, + "end_position": 96 + }, + { + "entity_type": "PERSON", + "entity_value": "Catherine Pham", + "start_position": 28, + "end_position": 42 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Autogrid Systems", + "start_position": 0, + "end_position": 16 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Aeropuerto by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Aeropuerto", + "start_position": 113, + "end_position": 123 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "have you heard benjamin rosing speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "benjamin rosing", + "start_position": 15, + "end_position": 30 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 5430032691976403 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5430032691976403", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 5571368151484176?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5571368151484176", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "Larsen Ltd. is an sierra leonian multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "sierra leonian", + "start_position": 18, + "end_position": 32 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Larsen Ltd.", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "I will be travelling to Kingdom of the Netherlands next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Kingdom of the Netherlands", + "start_position": 24, + "end_position": 50 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Kaczmarek began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of Victoria.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Victoria", + "start_position": 164, + "end_position": 172 + }, + { + "entity_type": "PERSON", + "entity_value": "Kaczmarek", + "start_position": 0, + "end_position": 9 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "Stephanie Gábor\nRamsey-Johnson\n50 Rua Arapiraca 1943\nGroot-Brakrivier\n, WC\n Oman 73670\nMobile: (02) 6766 4988\nDesk: (620)267-7063\nFax: +1-775-029-5498x79036", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-775-029-5498x79036", + "start_position": 135, + "end_position": 156 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(620)267-7063", + "start_position": 116, + "end_position": 129 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(02) 6766 4988", + "start_position": 95, + "end_position": 109 + }, + { + "entity_type": "ADDRESS", + "entity_value": "50 Rua Arapiraca 1943\nGroot-Brakrivier\n, WC\n Oman 73670", + "start_position": 31, + "end_position": 86 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ramsey-Johnson", + "start_position": 16, + "end_position": 30 + }, + { + "entity_type": "PERSON", + "entity_value": "Stephanie Gábor", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "Please block card no 5318262947782076", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5318262947782076", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "need to see last 10 transaction of card 4539646555931395", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539646555931395", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Paulista by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Paulista", + "start_position": 113, + "end_position": 121 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "ZIP: 59016", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "59016", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Javorac began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of Cegdel.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Cegdel", + "start_position": 162, + "end_position": 168 + }, + { + "entity_type": "PERSON", + "entity_value": "Javorac", + "start_position": 0, + "end_position": 7 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 76 29 Goldfields Road\n Apt. 160\n BIRNAM\n San Marino 95604?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "76 29 Goldfields Road\n Apt. 160\n BIRNAM\n San Marino 95604", + "start_position": 44, + "end_position": 101 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "The Experian Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern Trinidad and Tobago", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Trinidad and Tobago", + "start_position": 162, + "end_position": 181 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Experian", + "start_position": 4, + "end_position": 12 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "ZIP: 98827", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "98827", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Could you please email me the statement for last month , my credit card number is 4716346030721165?", + "masked": "Could you please email me the statement for last month , my credit card number is {{credit_card_number}}?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4716346030721165", + "start_position": 82, + "end_position": 98 + } + ], + "template_id": 25, + "metadata": null + }, + { + "full_text": "Vizzuality is an jordanian multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "jordanian", + "start_position": 17, + "end_position": 26 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Vizzuality", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "Andrew Bermúdez\nEcodesk\nGiovanni and 4147 Midway Road\nMobile: 0496 78 75 49\nDesk: (986)688-6210x2055\nFax: (048)953-9304x71542", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(048)953-9304x71542", + "start_position": 106, + "end_position": 125 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(986)688-6210x2055", + "start_position": 82, + "end_position": 100 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0496 78 75 49", + "start_position": 62, + "end_position": 75 + }, + { + "entity_type": "ADDRESS", + "entity_value": "Giovanni and 4147 Midway Road", + "start_position": 24, + "end_position": 53 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ecodesk", + "start_position": 16, + "end_position": 23 + }, + { + "entity_type": "PERSON", + "entity_value": "Andrew Bermúdez", + "start_position": 0, + "end_position": 15 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "have you heard Danny Mercado speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Danny Mercado", + "start_position": 15, + "end_position": 28 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Lostorf by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Lostorf", + "start_position": 113, + "end_position": 120 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "I will be travelling to Bulgaria next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Bulgaria", + "start_position": 24, + "end_position": 32 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "the sky news orchestra was founded in 1929. since then, the tso has grown from a volunteer community orchestra to a fully professional orchestra serving southern finland", + "masked": "The {{organization}} Orchestra was founded in 1929. Since then, the TSO has grown from a volunteer community orchestra to a fully professional orchestra serving Southern {{country}}", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "finland", + "start_position": 162, + "end_position": 169 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "sky news", + "start_position": 4, + "end_position": 12 + } + ], + "template_id": 118, + "metadata": null + }, + { + "full_text": "Nathan Oomori\nGovini\nUSNV Salgado\nFPO AA 59685\nMobile: (48) 447-568\nDesk: 001-732-667-6162x4209\nFax: 332-205-8126", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "332-205-8126", + "start_position": 101, + "end_position": 113 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "001-732-667-6162x4209", + "start_position": 74, + "end_position": 95 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "(48) 447-568", + "start_position": 55, + "end_position": 67 + }, + { + "entity_type": "ADDRESS", + "entity_value": "USNV Salgado\nFPO AA 59685", + "start_position": 21, + "end_position": 46 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Govini", + "start_position": 14, + "end_position": 20 + }, + { + "entity_type": "PERSON", + "entity_value": "Nathan Oomori", + "start_position": 0, + "end_position": 13 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "Johnson, Wallace and Santos songwriter Laurie Timayev employs corporate lingo in the first verse of her Orlin Research resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Orlin Research", + "start_position": 104, + "end_position": 118 + }, + { + "entity_type": "PERSON", + "entity_value": "Laurie Timayev", + "start_position": 39, + "end_position": 53 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Johnson, Wallace and Santos", + "start_position": 0, + "end_position": 27 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to FALKENBERG by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "FALKENBERG", + "start_position": 113, + "end_position": 123 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "Rei Systems songwriter Yolanda Novosel employs corporate lingo in the first verse of her Towerdata resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Towerdata", + "start_position": 89, + "end_position": 98 + }, + { + "entity_type": "PERSON", + "entity_value": "Yolanda Novosel", + "start_position": 23, + "end_position": 38 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Rei Systems", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to USNS Paavolainen\nFPO AE 50860?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "USNS Paavolainen\nFPO AE 50860", + "start_position": 44, + "end_position": 73 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to 58 38 Flora Way Apt. 474, Phoenix, Greece 21516?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "58 38 Flora Way Apt. 474, Phoenix, Greece 21516", + "start_position": 44, + "end_position": 91 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "ZIP: 56322", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "56322", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Caspio songwriter Melissa Johansen employs corporate lingo in the first verse of her Garcia-Smith resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Garcia-Smith", + "start_position": 85, + "end_position": 97 + }, + { + "entity_type": "PERSON", + "entity_value": "Melissa Johansen", + "start_position": 18, + "end_position": 34 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Caspio", + "start_position": 0, + "end_position": 6 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "Seeclickfix songwriter Patricia Lespérance employs corporate lingo in the first verse of her Green Inc. resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Green Inc.", + "start_position": 93, + "end_position": 103 + }, + { + "entity_type": "PERSON", + "entity_value": "Patricia Lespérance", + "start_position": 23, + "end_position": 42 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Seeclickfix", + "start_position": 0, + "end_position": 11 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "May I request to have the statement sent to the corner of Stradone Antonio Provolo 66 and Bang Street?", + "masked": "May I request to have the statement sent to {{address}}?", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "the corner of Stradone Antonio Provolo 66 and Bang Street", + "start_position": 44, + "end_position": 101 + } + ], + "template_id": 39, + "metadata": null + }, + { + "full_text": "Please block card no 5283604085260467", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5283604085260467", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "Jonathan Henriksen\nCraig, Palmer and Quinn\n64 R Nossa Senhora Fátima 106 Suite 399 Pisão Zambia\nMobile: 22 459902\nDesk: +1-595-274-6928x5474\nFax: 7953930087", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "7953930087", + "start_position": 146, + "end_position": 156 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "+1-595-274-6928x5474", + "start_position": 120, + "end_position": 140 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "22 459902", + "start_position": 104, + "end_position": 113 + }, + { + "entity_type": "ADDRESS", + "entity_value": "64 R Nossa Senhora Fátima 106 Suite 399 Pisão Zambia", + "start_position": 43, + "end_position": 95 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Craig, Palmer and Quinn", + "start_position": 19, + "end_position": 42 + }, + { + "entity_type": "PERSON", + "entity_value": "Jonathan Henriksen", + "start_position": 0, + "end_position": 18 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "ZIP: 10991", + "masked": "ZIP: {{zipcode}}", + "spans": [ + { + "entity_type": "ADDRESS", + "entity_value": "10991", + "start_position": 5, + "end_position": 10 + } + ], + "template_id": 162, + "metadata": null + }, + { + "full_text": "Nerdwallet is an somali multinational investment bank and financial services company", + "masked": "{{organization}} is an {{nationality}} multinational investment bank and financial services company", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "somali", + "start_position": 17, + "end_position": 23 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Nerdwallet", + "start_position": 0, + "end_position": 10 + } + ], + "template_id": 121, + "metadata": null + }, + { + "full_text": "Jonathan Young\nRivet Software\n68 Liini 22 Suite 020, GRANGE, Azerbaijan 72981\nMobile: 0664 243 39 24\nDesk: 628-250-2748x175\nFax: 614.310.1728x31927", + "masked": "{{name}}\n{{organization}}\n{{address}}\nMobile: {{phone_number}}\nDesk: {{phone_number}}\nFax: {{phone_number}}", + "spans": [ + { + "entity_type": "PHONE_NUMBER", + "entity_value": "614.310.1728x31927", + "start_position": 129, + "end_position": 147 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "628-250-2748x175", + "start_position": 107, + "end_position": 123 + }, + { + "entity_type": "PHONE_NUMBER", + "entity_value": "0664 243 39 24", + "start_position": 86, + "end_position": 100 + }, + { + "entity_type": "ADDRESS", + "entity_value": "68 Liini 22 Suite 020, GRANGE, Azerbaijan 72981", + "start_position": 30, + "end_position": 77 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Rivet Software", + "start_position": 15, + "end_position": 29 + }, + { + "entity_type": "PERSON", + "entity_value": "Jonathan Young", + "start_position": 0, + "end_position": 14 + } + ], + "template_id": 150, + "metadata": null + }, + { + "full_text": "I will be travelling to Sudan next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Sudan", + "start_position": 24, + "end_position": 29 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Gallup website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Gallup", + "start_position": 257, + "end_position": 263 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "Please block card no 5289455265817640", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5289455265817640", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "masked": "WHAT ??? I DON'T KNOW WHAT TO PRESS NEXT!!! ? !! ?!", + "spans": [], + "template_id": 35, + "metadata": null + }, + { + "full_text": "I will be travelling to Switzerland next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Switzerland", + "start_position": 24, + "end_position": 35 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "I will be travelling to Uganda next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Uganda", + "start_position": 24, + "end_position": 30 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Navico website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Navico", + "start_position": 257, + "end_position": 263 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the Connotate website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "masked": "Mission Statement: This non-profit founded by radio executives \"serves as an advocate for the value of music\" and \"supports its songwriters, composers and publishers by taking care of an important aspect of their careers ג€“ getting paid,\" according to the {{organization}} website. They offer blanket music licenses to businesses and organizations that allow them to play nearly 13 million musical works.", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Connotate", + "start_position": 257, + "end_position": 266 + } + ], + "template_id": 117, + "metadata": null + }, + { + "full_text": "Tran began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of Archimandrita Pano.", + "masked": "{{last_name}} began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of {{city}}.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Archimandrita Pano", + "start_position": 159, + "end_position": 177 + }, + { + "entity_type": "PERSON", + "entity_value": "Tran", + "start_position": 0, + "end_position": 4 + } + ], + "template_id": 127, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Egilsstaðir by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Egilsstaðir", + "start_position": 113, + "end_position": 124 + } + ], + "template_id": 174, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 5527751908710743", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5527751908710743", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "I will be travelling to United Kingdom next week, so I need my passport to be ready by then", + "masked": "I will be travelling to {{country}} next week, so I need my passport to be ready by then", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "United Kingdom", + "start_position": 24, + "end_position": 38 + } + ], + "template_id": 22, + "metadata": null + }, + { + "full_text": "Ellis-Ingram songwriter Melissa Jensen employs corporate lingo in the first verse of her Scott Group resignation Letter", + "masked": "{{organization}} songwriter {{name_female}} employs corporate lingo in the first verse of her {{organization}} resignation Letter", + "spans": [ + { + "entity_type": "ORGANIZATION", + "entity_value": "Scott Group", + "start_position": 89, + "end_position": 100 + }, + { + "entity_type": "PERSON", + "entity_value": "Melissa Jensen", + "start_position": 24, + "end_position": 38 + }, + { + "entity_type": "ORGANIZATION", + "entity_value": "Ellis-Ingram", + "start_position": 0, + "end_position": 12 + } + ], + "template_id": 116, + "metadata": null + }, + { + "full_text": "have you heard Virginia Müller speak yet?", + "masked": "have you heard {{person}} speak yet?", + "spans": [ + { + "entity_type": "PERSON", + "entity_value": "Virginia Müller", + "start_position": 15, + "end_position": 30 + } + ], + "template_id": 94, + "metadata": null + }, + { + "full_text": "Need to see last 10 transaction of card 5428439525512086", + "masked": "Need to see last 10 transaction of card {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5428439525512086", + "start_position": 40, + "end_position": 56 + } + ], + "template_id": 9, + "metadata": null + }, + { + "full_text": "Please block card no 4539571157042823", + "masked": "Please block card no {{credit_card_number}}", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "4539571157042823", + "start_position": 21, + "end_position": 37 + } + ], + "template_id": 55, + "metadata": null + }, + { + "full_text": "What is procedure to redeem points won on credit card 5210914467454556 transactions ?", + "masked": "What is procedure to redeem points won on credit card {{credit_card_number}} transactions ?", + "spans": [ + { + "entity_type": "CREDIT_CARD", + "entity_value": "5210914467454556", + "start_position": 54, + "end_position": 70 + } + ], + "template_id": 13, + "metadata": null + }, + { + "full_text": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to Dramlje by helicopter.", + "masked": "At my suggestion, one morning over breakfast, she agreed, and on the last Sunday before Labor Day we returned to {{city}} by helicopter.", + "spans": [ + { + "entity_type": "LOCATION", + "entity_value": "Dramlje", + "start_position": 113, + "end_position": 120 + } + ], + "template_id": 174, + "metadata": null + } +] \ No newline at end of file diff --git a/tests/data/generated_small.txt b/tests/data/generated_small.txt deleted file mode 100644 index 0f086ee..0000000 --- a/tests/data/generated_small.txt +++ /dev/null @@ -1,8538 +0,0 @@ -[ - { - "full_text": "please transfer all funds from my account to this hackers' syedsimensen@cuvox.de", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "syedsimensen@cuvox.de", - "start_position": 59, - "end_position": 80 - } - ], - "tokens": [ - { - "text": "please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "syedsimensen@cuvox.de", - "idx": 59, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "pobj", - "lemma_": "syedsimensen@cuvox.de", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "Cyprus", - "Lowercase": true, - "Template#": 30 - } - }, - { - "full_text": "His social security number is ", - "masked": null, - "spans": [ - { - "entity_type": "US_SSN", - "entity_value": "", - "start_position": 30, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "His", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "social", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "social", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "security", - "idx": 11, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "security", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 27, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "Congo", - "Lowercase": false, - "Template#": 85 - } - }, - { - "full_text": "I would like to stop receiving messages to 468 06 892", - "masked": null, - "spans": [ - { - "entity_type": "PHONE_NUMBER", - "entity_value": "468 06 892", - "start_position": 43, - "end_position": 53 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 13, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stop", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "stop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "receiving", - "idx": 21, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "receive", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "messages", - "idx": 31, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "message", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 40, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "468", - "idx": 43, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "468", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "06", - "idx": 47, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "06", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "892", - "idx": 50, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "892", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PHONE_NUMBER", - "I-PHONE_NUMBER", - "L-PHONE_NUMBER" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "South-America", - "Lowercase": false, - "Template#": 43 - } - }, - { - "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city Berbroek: Audio Aid, Pay'N Takeit and Reliable Investments. \"Don't feed me planned obsolescence,\" says Devin Berg in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Berbroek", - "start_position": 132, - "end_position": 140 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Audio Aid", - "start_position": 142, - "end_position": 151 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Pay'N Takeit", - "start_position": 153, - "end_position": 165 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Reliable Investments", - "start_position": 170, - "end_position": 190 - }, - { - "entity_type": "PERSON", - "entity_value": "Devin Berg", - "start_position": 235, - "end_position": 245 - } - ], - "tokens": [ - { - "text": "\"", - "idx": 0, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "ROOT", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 1, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "big", - "idx": 5, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "three", - "idx": 9, - "tag_": "CD", - "pos_": "NUM", - "dep_": "intj", - "lemma_": "three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 14, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Big", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Three", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Killed", - "idx": 33, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "kill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Baby", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Baby", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 48, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "car", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "car", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manufacturers", - "idx": 60, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "manufacturer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 74, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "dominate", - "idx": 79, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "dominate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 88, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "economy", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "economy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "White", - "idx": 107, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "White", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stripes", - "idx": 113, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Stripes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 120, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "home", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "city", - "idx": 127, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "city", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Berbroek", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Berbroek", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 140, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Audio", - "idx": 142, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Audio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Aid", - "idx": 148, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Aid", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 151, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pay'N", - "idx": 153, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Pay'N", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Takeit", - "idx": 159, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Takeit", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 166, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Reliable", - "idx": 170, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "amod", - "lemma_": "Reliable", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Investments", - "idx": 179, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Investments", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 190, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 192, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Do", - "idx": 193, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 195, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "feed", - "idx": 199, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "feed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 204, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "planned", - "idx": 207, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "plan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "obsolescence", - "idx": 215, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "obsolescence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 227, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 228, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "says", - "idx": 230, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Devin", - "idx": 235, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Devin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Berg", - "idx": 241, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Berg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 246, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 249, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "uncharacteristically", - "idx": 252, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "uncharacteristically", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "political", - "idx": 273, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "political", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 283, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 287, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lamenting", - "idx": 289, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lament", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 299, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "demise", - "idx": 303, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "demise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 310, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 313, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unions", - "idx": 317, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "union", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 324, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 327, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "60s", - "idx": 331, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "60", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 334, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Swedish", - "Country": "Israel", - "Lowercase": false, - "Template#": 112 - } - }, - { - "full_text": "\"The big three\" of The Big Three Killed My Baby are the car manufacturers that dominate the economy of the White Stripes' home city TROMSØ: Team Designers And Associates, Sun Television And Appliances and E.J. Korvette. \"Don't feed me planned obsolescence,\" says Mstislav Dolgorukova in an uncharacteristically political song, lamenting the demise of the unions in the 60s.", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "TROMSØ", - "start_position": 132, - "end_position": 138 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Team Designers And Associates", - "start_position": 140, - "end_position": 169 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "Sun Television And Appliances", - "start_position": 171, - "end_position": 200 - }, - { - "entity_type": "ORGANIZATION", - "entity_value": "E.J. Korvette", - "start_position": 205, - "end_position": 218 - }, - { - "entity_type": "PERSON", - "entity_value": "Mstislav Dolgorukova", - "start_position": 263, - "end_position": 283 - } - ], - "tokens": [ - { - "text": "\"", - "idx": 0, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "ROOT", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 1, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "big", - "idx": 5, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "three", - "idx": 9, - "tag_": "CD", - "pos_": "NUM", - "dep_": "intj", - "lemma_": "three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 14, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 19, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Big", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Big", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Three", - "idx": 27, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Three", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Killed", - "idx": 33, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "kill", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "My", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Baby", - "idx": 43, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Baby", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 48, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 52, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "car", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "car", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "manufacturers", - "idx": 60, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "manufacturer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 74, - "tag_": "WDT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "dominate", - "idx": 79, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "dominate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 88, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "economy", - "idx": 92, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "economy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "White", - "idx": 107, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "White", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Stripes", - "idx": 113, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "poss", - "lemma_": "Stripes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 120, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "home", - "idx": 122, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "home", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "city", - "idx": 127, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "city", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "TROMSØ", - "idx": 132, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "TROMSØ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 138, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Team", - "idx": 140, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Team", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Designers", - "idx": 145, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Designers", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "And", - "idx": 155, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Associates", - "idx": 159, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Associates", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 169, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sun", - "idx": 171, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Television", - "idx": 175, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Television", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "And", - "idx": 186, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Appliances", - "idx": 190, - "tag_": "NNPS", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Appliances", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 201, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "E.J.", - "idx": 205, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "E.J.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Korvette", - "idx": 210, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "conj", - "lemma_": "Korvette", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 218, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 220, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Do", - "idx": 221, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 223, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "feed", - "idx": 227, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "feed", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 232, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dative", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "planned", - "idx": 235, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "plan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "obsolescence", - "idx": 243, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "obsolescence", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 255, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 256, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "says", - "idx": 258, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "say", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mstislav", - "idx": 263, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mstislav", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dolgorukova", - "idx": 272, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Dolgorukova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 284, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 287, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "uncharacteristically", - "idx": 290, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "uncharacteristically", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "political", - "idx": 311, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "political", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 321, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 325, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lamenting", - "idx": 327, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "lament", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 337, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "demise", - "idx": 341, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "demise", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 348, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 351, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "unions", - "idx": 355, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "union", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 362, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 365, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "60s", - "idx": 369, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "60", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 372, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "I-ORGANIZATION", - "I-ORGANIZATION", - "L-ORGANIZATION", - "O", - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Rwanda", - "Lowercase": false, - "Template#": 112 - } - }, - { - "full_text": "Please transfer all funds from my account to this hackers' AkahoYokoi@cuvox.de", - "masked": null, - "spans": [ - { - "entity_type": "EMAIL_ADDRESS", - "entity_value": "AkahoYokoi@cuvox.de", - "start_position": 59, - "end_position": 78 - } - ], - "tokens": [ - { - "text": "Please", - "idx": 0, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 7, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "all", - "idx": 16, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "all", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "funds", - "idx": 20, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "fund", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 26, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 31, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 42, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 45, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "hackers", - "idx": 50, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "hacker", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'", - "idx": 57, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "AkahoYokoi@cuvox.de", - "idx": 59, - "tag_": "ADD", - "pos_": "X", - "dep_": "punct", - "lemma_": "akahoyokoi@cuvox.de", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-EMAIL_ADDRESS" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Japanese (Anglicized)", - "Country": "Sierra Leone", - "Lowercase": false, - "Template#": 30 - } - }, - { - "full_text": "Inject SELECT * FROM Users WHERE clinet_ip = ?%//!%20\\||%20/", - "masked": null, - "spans": [ - { - "entity_type": "IP_ADDRESS", - "entity_value": "", - "start_position": 55, - "end_position": 55 - } - ], - "tokens": [ - { - "text": "Inject", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "inject", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SELECT", - "idx": 7, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "SELECT", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "*", - "idx": 14, - "tag_": "NFP", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "*", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "FROM", - "idx": 16, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Users", - "idx": 21, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "user", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "WHERE", - "idx": 27, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "clinet_ip", - "idx": 33, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dep", - "lemma_": "clinet_ip", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "=", - "idx": 43, - "tag_": "NFP", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "=", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 45, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "%", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "%", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "//!%20\\||%20/", - "idx": 47, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "//!%20\\||%20/", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Chechen (Latin)", - "Country": "China", - "Lowercase": false, - "Template#": 36 - } - }, - { - "full_text": "S&W Cafeteria is an North Korean multinational investment bank and financial services company", - "masked": null, - "spans": [ - { - "entity_type": "ORGANIZATION", - "entity_value": "S&W Cafeteria", - "start_position": 0, - "end_position": 13 - }, - { - "entity_type": "NATIONALITY", - "entity_value": "North Korean", - "start_position": 20, - "end_position": 32 - } - ], - "tokens": [ - { - "text": "S&W", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "S&W", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Cafeteria", - "idx": 4, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Cafeteria", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 14, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "an", - "idx": 17, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "North", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "north", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Korean", - "idx": 26, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "korean", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "multinational", - "idx": 33, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "multinational", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "investment", - "idx": 47, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "investment", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bank", - "idx": 58, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nmod", - "lemma_": "bank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 63, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "financial", - "idx": 67, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "financial", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "services", - "idx": 77, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "service", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "company", - "idx": 86, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "company", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "B-ORGANIZATION", - "L-ORGANIZATION", - "O", - "O", - "B-NATIONALITY", - "L-NATIONALITY", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Polish", - "Country": "Ireland", - "Lowercase": false, - "Template#": 118 - } - }, - { - "full_text": "Will my account stay active? It's under my partner's name Fredrik Sommerseth", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Fredrik Sommerseth", - "start_position": 58, - "end_position": 76 - } - ], - "tokens": [ - { - "text": "Will", - "idx": 0, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 5, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 8, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "stay", - "idx": 16, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "stay", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "active", - "idx": 21, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "active", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 27, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 29, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 31, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "under", - "idx": 34, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "under", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 40, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "partner", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "partner", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 50, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 53, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fredrik", - "idx": 58, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fredrik", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sommerseth", - "idx": 66, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Sommerseth", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Norwegian", - "Country": "Paraguay", - "Lowercase": false, - "Template#": 39 - } - }, - { - "full_text": "This song by ex-Zombie Balashova is a perfect example of why you shouldn't concentrate on the order of this list. An argument could be made that this should be at number one, and I wouldn't argue with it.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Balashova", - "start_position": 23, - "end_position": 32 - } - ], - "tokens": [ - { - "text": "This", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "song", - "idx": 5, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "song", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 10, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ex", - "idx": 13, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "dep", - "lemma_": "ex", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "-", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dep", - "lemma_": "-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Zombie", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Zombie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Balashova", - "idx": 23, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Balashova", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 33, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 36, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "perfect", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "perfect", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "example", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "example", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 54, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "why", - "idx": 57, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "why", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 61, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 65, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 71, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "concentrate", - "idx": 75, - "tag_": "VB", - "pos_": "VERB", - "dep_": "pcomp", - "lemma_": "concentrate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 87, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 90, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "order", - "idx": 94, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "order", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 100, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "list", - "idx": 108, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "list", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 112, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "An", - "idx": 114, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "an", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argument", - "idx": 117, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "argument", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "could", - "idx": 126, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "could", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 132, - "tag_": "VB", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "made", - "idx": 135, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "make", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 140, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 145, - "tag_": "DT", - "pos_": "DET", - "dep_": "nsubj", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "should", - "idx": 150, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "should", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 157, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 160, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 163, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 170, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 173, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 175, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 179, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "would", - "idx": 181, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "would", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 186, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "argue", - "idx": 190, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "argue", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "with", - "idx": 196, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "with", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 201, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 203, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Kurdistan", - "Lowercase": false, - "Template#": 106 - } - }, - { - "full_text": "Excuse me, Sir bot, but I really don't like this tone", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "Excuse", - "idx": 0, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "excuse", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 7, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 9, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Sir", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Sir", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bot", - "idx": 15, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "bot", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 18, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "but", - "idx": 20, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 24, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "really", - "idx": 26, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "really", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "do", - "idx": 33, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "do", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "n't", - "idx": 35, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "like", - "idx": 39, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "like", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 44, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tone", - "idx": 49, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "tone", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Bahamas", - "Lowercase": false, - "Template#": 33 - } - }, - { - "full_text": "In case of my child's account, we need to add Lukasz van der Elst as guardian", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Lukasz van der Elst", - "start_position": 46, - "end_position": 65 - } - ], - "tokens": [ - { - "text": "In", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "case", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "case", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 8, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 11, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "child", - "idx": 14, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "poss", - "lemma_": "child", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 19, - "tag_": "POS", - "pos_": "PART", - "dep_": "case", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 29, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "we", - "idx": 31, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 34, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 39, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "add", - "idx": 42, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "add", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Lukasz", - "idx": 46, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Lukasz", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "van", - "idx": 53, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "van", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "der", - "idx": 57, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "der", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Elst", - "idx": 61, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Elst", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 66, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "guardian", - "idx": 69, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "guardian", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "I-PERSON", - "I-PERSON", - "L-PERSON", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Dutch", - "Country": "Lebanon", - "Lowercase": false, - "Template#": 4 - } - }, - { - "full_text": "Karen is very reliable. You can always depend on him.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Karen", - "start_position": 0, - "end_position": 5 - } - ], - "tokens": [ - { - "text": "Karen", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Karen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 6, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "very", - "idx": 9, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "very", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "reliable", - "idx": 14, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "reliable", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 22, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 24, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 28, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "always", - "idx": 32, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "always", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "depend", - "idx": 39, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "depend", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 46, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "him", - "idx": 49, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 52, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "The Philippines", - "Lowercase": false, - "Template#": 88 - } - }, - { - "full_text": "Stanković began writing as a teenager, publishing her first story, \"The Dimensions of a Shadow\", in 1950 while studying English and journalism at the University of Landelies.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Stanković", - "start_position": 0, - "end_position": 9 - }, - { - "entity_type": "LOCATION", - "entity_value": "Landelies", - "start_position": 164, - "end_position": 173 - } - ], - "tokens": [ - { - "text": "Stanković", - "idx": 0, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Stanković", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "began", - "idx": 10, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "begin", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "writing", - "idx": 16, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "as", - "idx": 24, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "as", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 27, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "teenager", - "idx": 29, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "teenager", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 37, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "publishing", - "idx": 39, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "advcl", - "lemma_": "publish", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "her", - "idx": 50, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 54, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "story", - "idx": 60, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "story", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 65, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 67, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 68, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Dimensions", - "idx": 72, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "dimension", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 83, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 86, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Shadow", - "idx": 88, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Shadow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 94, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 95, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 97, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "1950", - "idx": 100, - "tag_": "CD", - "pos_": "NUM", - "dep_": "pobj", - "lemma_": "1950", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "while", - "idx": 105, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "while", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "studying", - "idx": 111, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "study", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "English", - "idx": 120, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "English", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 128, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "journalism", - "idx": 132, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "conj", - "lemma_": "journalism", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "at", - "idx": 143, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "at", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 146, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "University", - "idx": 150, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "University", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 161, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Landelies", - "idx": 164, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Landelies", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 173, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Croatian", - "Country": "Eritrea", - "Lowercase": false, - "Template#": 124 - } - }, - { - "full_text": "I need to add addresses, here they are: Roodborstweg 193, Apeldoorn 7331EG, Midtvollen 130, SANDNES 4319", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Roodborstweg 193, Apeldoorn 7331EG", - "start_position": 41, - "end_position": 75 - }, - { - "entity_type": "LOCATION", - "entity_value": "Midtvollen 130, SANDNES 4319", - "start_position": 77, - "end_position": 105 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "add", - "idx": 10, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "add", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 14, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addresses", - "idx": 15, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 24, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "here", - "idx": 26, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "here", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "they", - "idx": 31, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "are", - "idx": 36, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 39, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Roodborstweg", - "idx": 41, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Roodborstweg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "193", - "idx": 54, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "193", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 57, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Apeldoorn", - "idx": 59, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Apeldoorn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "7331EG", - "idx": 69, - "tag_": "CD", - "pos_": "NUM", - "dep_": "dep", - "lemma_": "7331eg", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 75, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Midtvollen", - "idx": 77, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Midtvollen", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "130", - "idx": 88, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "130", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 91, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "SANDNES", - "idx": 93, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "SANDNES", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "4319", - "idx": 101, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "4319", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Swedish", - "Country": "Maldives", - "Lowercase": false, - "Template#": 48 - } - }, - { - "full_text": "I want to upadte my primary and secondary address to same: Kapelaniestraat 88, Leugnies 6500", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Kapelaniestraat 88, Leugnies 6500", - "start_position": 59, - "end_position": 92 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "want", - "idx": 2, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "want", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 7, - "tag_": "IN", - "pos_": "ADP", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "upadte", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "upadte", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 17, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "primary", - "idx": 20, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "primary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 28, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "secondary", - "idx": 32, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "conj", - "lemma_": "secondary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "address", - "idx": 42, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "address", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 50, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "same", - "idx": 53, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "pobj", - "lemma_": "same", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 57, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kapelaniestraat", - "idx": 59, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Kapelaniestraat", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "88", - "idx": 75, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "88", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 77, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Leugnies", - "idx": 79, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Leugnies", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "6500", - "idx": 88, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "6500", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Australian", - "Country": "Kuwait", - "Lowercase": false, - "Template#": 3 - } - }, - { - "full_text": "Unlike the Fernandes novel, it's not about necrophilia. What it is about, I suppose is anyone's guess. A brilliant piece of baroque pop.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Fernandes", - "start_position": 11, - "end_position": 20 - } - ], - "tokens": [ - { - "text": "Unlike", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "unlike", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 7, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Fernandes", - "idx": 11, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Fernandes", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "novel", - "idx": 21, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "novel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 26, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 28, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 30, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 33, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 37, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "necrophilia", - "idx": 43, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "necrophilia", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 54, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "What", - "idx": 56, - "tag_": "WP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 61, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 64, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "csubj", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "about", - "idx": 67, - "tag_": "IN", - "pos_": "ADP", - "dep_": "acomp", - "lemma_": "about", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 72, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 74, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "suppose", - "idx": 76, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "parataxis", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 84, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "anyone", - "idx": 87, - "tag_": "NN", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "anyone", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 93, - "tag_": "POS", - "pos_": "PART", - "dep_": "auxpass", - "lemma_": "'s", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "guess", - "idx": 96, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "guess", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 101, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "A", - "idx": 103, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "brilliant", - "idx": 105, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "brilliant", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "piece", - "idx": 115, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "ROOT", - "lemma_": "piece", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 121, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "baroque", - "idx": 124, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "baroque", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "pop", - "idx": 132, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "pop", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 135, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Kuwait", - "Lowercase": false, - "Template#": 96 - } - }, - { - "full_text": "Are there any charges applied for money transfer from IL270126100000000544211 to other bank accounts", - "masked": null, - "spans": [ - { - "entity_type": "IBAN", - "entity_value": "IL270126100000000544211", - "start_position": 54, - "end_position": 77 - } - ], - "tokens": [ - { - "text": "Are", - "idx": 0, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "there", - "idx": 4, - "tag_": "EX", - "pos_": "PRON", - "dep_": "expl", - "lemma_": "there", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "any", - "idx": 10, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "any", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "charges", - "idx": 14, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "charge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "applied", - "idx": 22, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "acl", - "lemma_": "apply", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "for", - "idx": 30, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "money", - "idx": 34, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "money", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "transfer", - "idx": 40, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "transfer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "from", - "idx": 49, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "from", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "IL270126100000000544211", - "idx": 54, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "IL270126100000000544211", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 78, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "other", - "idx": 81, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "other", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bank", - "idx": 87, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "bank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "accounts", - "idx": 92, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-IBAN", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Senegal", - "Lowercase": false, - "Template#": 5 - } - }, - { - "full_text": "i will be travelling to spain next week, so i need my passport to be ready by then", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "spain", - "start_position": 24, - "end_position": 29 - } - ], - "tokens": [ - { - "text": "i", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 2, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 7, - "tag_": "VB", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "travelling", - "idx": 10, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "travel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 21, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "spain", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "spain", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "next", - "idx": 30, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "next", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "week", - "idx": 35, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "npadvmod", - "lemma_": "week", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 39, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 41, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "i", - "idx": 44, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "i", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "need", - "idx": 46, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "need", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 51, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "passport", - "idx": 54, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "passport", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 63, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "be", - "idx": 66, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "ready", - "idx": 69, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "ready", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "by", - "idx": 75, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "by", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "then", - "idx": 78, - "tag_": "RB", - "pos_": "ADV", - "dep_": "pcomp", - "lemma_": "then", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "American", - "Country": "Spain", - "Lowercase": true, - "Template#": 22 - } - }, - { - "full_text": "The name in the account is not correct, please change it to Kolbeinn Þórðarson", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Kolbeinn Þórðarson", - "start_position": 60, - "end_position": 78 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 9, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 12, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "account", - "idx": 16, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "account", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 24, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "not", - "idx": 27, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "correct", - "idx": 31, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "correct", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 38, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 40, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "change", - "idx": 47, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "change", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "it", - "idx": 54, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 57, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Kolbeinn", - "idx": 60, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Kolbeinn", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Þórðarson", - "idx": 69, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Þórðarson", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Icelandic", - "Country": "Burma (Or Myanmar)", - "Lowercase": false, - "Template#": 46 - } - }, - { - "full_text": "His social security number is ", - "masked": null, - "spans": [ - { - "entity_type": "US_SSN", - "entity_value": "", - "start_position": 30, - "end_position": 30 - } - ], - "tokens": [ - { - "text": "His", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "social", - "idx": 4, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "social", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "security", - "idx": 11, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "security", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "number", - "idx": 20, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "number", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 27, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Danish", - "Country": "Taiwan", - "Lowercase": false, - "Template#": 85 - } - }, - { - "full_text": "The title refers to Street in FONTAINE. It was on this street that many of the clubs where Metallica first played were situated. \"Battery is found in me\" shows that these early shows on Boulevard de Normandie Street were important to them. Battery is where \"lunacy finds you\" and you \"smash through the boundaries.\"", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "", - "start_position": 20, - "end_position": 20 - }, - { - "entity_type": "LOCATION", - "entity_value": "FONTAINE", - "start_position": 31, - "end_position": 39 - }, - { - "entity_type": "LOCATION", - "entity_value": "Boulevard de Normandie", - "start_position": 187, - "end_position": 209 - } - ], - "tokens": [ - { - "text": "The", - "idx": 0, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "title", - "idx": 4, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "title", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "refers", - "idx": 10, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "refer", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 17, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": " ", - "idx": 20, - "tag_": "_SP", - "pos_": "SPACE", - "dep_": "", - "lemma_": " ", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Street", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Street", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 28, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "FONTAINE", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "FONTAINE", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "It", - "idx": 41, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 44, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 48, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "this", - "idx": 51, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "this", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "street", - "idx": 56, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "street", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 63, - "tag_": "WDT", - "pos_": "DET", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "many", - "idx": 68, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "nsubjpass", - "lemma_": "many", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 73, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 76, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "clubs", - "idx": 80, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "club", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 86, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Metallica", - "idx": 92, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "Metallica", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "first", - "idx": 102, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "first", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "played", - "idx": 108, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "relcl", - "lemma_": "play", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 115, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "situated", - "idx": 120, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "situate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 128, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 130, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Battery", - "idx": 131, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubjpass", - "lemma_": "battery", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 139, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "found", - "idx": 142, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "find", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 148, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "me", - "idx": 151, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 153, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shows", - "idx": 155, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "show", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "that", - "idx": 161, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "mark", - "lemma_": "that", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "these", - "idx": 166, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "these", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "early", - "idx": 172, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "early", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "shows", - "idx": 178, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "show", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 184, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Boulevard", - "idx": 187, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Boulevard", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "de", - "idx": 197, - "tag_": "FW", - "pos_": "X", - "dep_": "compound", - "lemma_": "de", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Normandie", - "idx": 200, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Normandie", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Street", - "idx": 210, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Street", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "were", - "idx": 217, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "important", - "idx": 222, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "acomp", - "lemma_": "important", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "to", - "idx": 232, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "them", - "idx": 235, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "pobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 239, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Battery", - "idx": 241, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "battery", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 249, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "where", - "idx": 252, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "where", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 258, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lunacy", - "idx": 259, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "lunacy", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "finds", - "idx": 266, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "find", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 272, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "dobj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 275, - "tag_": "``", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "and", - "idx": 277, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "and", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 281, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 285, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "smash", - "idx": 286, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "smash", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "through", - "idx": 292, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "through", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 300, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "boundaries", - "idx": 304, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "boundary", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 314, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "\"", - "idx": 315, - "tag_": "''", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "\"", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "U-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Brazil", - "Country": "Mozambique", - "Lowercase": false, - "Template#": 107 - } - }, - { - "full_text": "For my take on Mr. Björgvinsdóttir, see Guilty Pleasures: 5 Musicians Of The 70s You're Supposed To Hate (But Secretly Love)", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Björgvinsdóttir", - "start_position": 19, - "end_position": 34 - } - ], - "tokens": [ - { - "text": "For", - "idx": 0, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "for", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 4, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "take", - "idx": 7, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "take", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 12, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Mr.", - "idx": 15, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Mr.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Björgvinsdóttir", - "idx": 19, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Björgvinsdóttir", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 34, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "see", - "idx": 36, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "see", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Guilty", - "idx": 40, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Guilty", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Pleasures", - "idx": 47, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "pleasure", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ":", - "idx": 56, - "tag_": ":", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ":", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5", - "idx": 58, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "5", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Musicians", - "idx": 60, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "appos", - "lemma_": "musician", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Of", - "idx": 70, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "The", - "idx": 73, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "70s", - "idx": 77, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "70", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "You", - "idx": 81, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubjpass", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'re", - "idx": 84, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "auxpass", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Supposed", - "idx": 88, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "suppose", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "To", - "idx": 97, - "tag_": "TO", - "pos_": "PART", - "dep_": "aux", - "lemma_": "to", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Hate", - "idx": 100, - "tag_": "VB", - "pos_": "VERB", - "dep_": "xcomp", - "lemma_": "hate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "(", - "idx": 105, - "tag_": "-LRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "(", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "But", - "idx": 106, - "tag_": "CC", - "pos_": "CCONJ", - "dep_": "cc", - "lemma_": "but", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Secretly", - "idx": 110, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "secretly", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Love", - "idx": 119, - "tag_": "VB", - "pos_": "VERB", - "dep_": "conj", - "lemma_": "love", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ")", - "idx": 123, - "tag_": "-RRB-", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ")", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Icelandic", - "Country": "Pakistan", - "Lowercase": false, - "Template#": 95 - } - }, - { - "full_text": "My nam is Vitaly", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Vitaly", - "start_position": 10, - "end_position": 16 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "nam", - "idx": 3, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "nsubj", - "lemma_": "nam", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "is", - "idx": 7, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Vitaly", - "idx": 10, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "attr", - "lemma_": "Vitaly", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Russian", - "Country": "Tanzania", - "Lowercase": false, - "Template#": 56 - } - }, - { - "full_text": "I once lived in P.O. Box 95, Upernavik 3962. I now live in Holmatun 45, Bessastaðahreppur 225", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "P.O. Box 95, Upernavik 3962", - "start_position": 16, - "end_position": 43 - }, - { - "entity_type": "LOCATION", - "entity_value": "Holmatun 45, Bessastaðahreppur 225", - "start_position": 59, - "end_position": 93 - } - ], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "once", - "idx": 2, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "once", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "lived", - "idx": 7, - "tag_": "VBD", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 13, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "P.O.", - "idx": 16, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "P.O.", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Box", - "idx": 21, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Box", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "95", - "idx": 25, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "95", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 27, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Upernavik", - "idx": 29, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Upernavik", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "3962", - "idx": 39, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "3962", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 43, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "now", - "idx": 47, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "now", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "live", - "idx": 51, - "tag_": "VBP", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "live", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "in", - "idx": 56, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "in", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Holmatun", - "idx": 59, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Holmatun", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "45", - "idx": 68, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "45", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 70, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Bessastaðahreppur", - "idx": 72, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "appos", - "lemma_": "Bessastaðahreppur", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "225", - "idx": 90, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "225", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Scottish", - "Country": "Bolivia", - "Lowercase": false, - "Template#": 61 - } - }, - { - "full_text": "Not getting bank documents on my addres. Can you please validate the following Industrivej 82, Brædstrup 8740", - "masked": null, - "spans": [ - { - "entity_type": "LOCATION", - "entity_value": "Industrivej 82, Brædstrup 8740", - "start_position": 79, - "end_position": 109 - } - ], - "tokens": [ - { - "text": "Not", - "idx": 0, - "tag_": "RB", - "pos_": "PART", - "dep_": "neg", - "lemma_": "not", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "getting", - "idx": 4, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "bank", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "compound", - "lemma_": "bank", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "documents", - "idx": 17, - "tag_": "NNS", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "document", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "on", - "idx": 27, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "on", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 30, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "addres", - "idx": 33, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "addres", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 39, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Can", - "idx": 41, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "Can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "you", - "idx": 45, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 49, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "validate", - "idx": 56, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "validate", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 65, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "following", - "idx": 69, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "amod", - "lemma_": "follow", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Industrivej", - "idx": 79, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "pobj", - "lemma_": "Industrivej", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "82", - "idx": 91, - "tag_": "CD", - "pos_": "NUM", - "dep_": "nummod", - "lemma_": "82", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 93, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Brædstrup", - "idx": 95, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Brædstrup", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "8740", - "idx": 105, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "8740", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "B-LOCATION", - "I-LOCATION", - "I-LOCATION", - "I-LOCATION", - "L-LOCATION" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Russian", - "Country": "Madagascar", - "Lowercase": false, - "Template#": 7 - } - }, - { - "full_text": "My card 5269245773023573 expires soon � when will I get a new one?", - "masked": null, - "spans": [ - { - "entity_type": "CREDIT_CARD", - "entity_value": "5269245773023573", - "start_position": 8, - "end_position": 24 - } - ], - "tokens": [ - { - "text": "My", - "idx": 0, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "card", - "idx": 3, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "card", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "5269245773023573", - "idx": 8, - "tag_": "CD", - "pos_": "NUM", - "dep_": "appos", - "lemma_": "5269245773023573", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "expires", - "idx": 25, - "tag_": "VBZ", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "expire", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "soon", - "idx": 33, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "soon", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "�", - "idx": 38, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "intj", - "lemma_": "�", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 42, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "will", - "idx": 47, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "will", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "I", - "idx": 52, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "get", - "idx": 54, - "tag_": "VB", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "get", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 58, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "new", - "idx": 60, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "new", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "one", - "idx": 64, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "one", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 67, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "U-CREDIT_CARD", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "American", - "Country": "Bangladesh", - "Lowercase": false, - "Template#": 14 - } - }, - { - "full_text": "I'm moving out of the country, so please cancel my subscription", - "masked": null, - "spans": [], - "tokens": [ - { - "text": "I", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'m", - "idx": 1, - "tag_": "VBP", - "pos_": "AUX", - "dep_": "aux", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "moving", - "idx": 4, - "tag_": "VBG", - "pos_": "VERB", - "dep_": "ccomp", - "lemma_": "move", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "out", - "idx": 11, - "tag_": "IN", - "pos_": "SCONJ", - "dep_": "prep", - "lemma_": "out", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "of", - "idx": 15, - "tag_": "IN", - "pos_": "ADP", - "dep_": "prep", - "lemma_": "of", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "the", - "idx": 18, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "the", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "country", - "idx": 22, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "pobj", - "lemma_": "country", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ",", - "idx": 29, - "tag_": ",", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ",", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "so", - "idx": 31, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "so", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "please", - "idx": 34, - "tag_": "UH", - "pos_": "INTJ", - "dep_": "intj", - "lemma_": "please", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "cancel", - "idx": 41, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "cancel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "my", - "idx": 48, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "subscription", - "idx": 51, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "dobj", - "lemma_": "subscription", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "female", - "NameSet": "Norwegian", - "Country": "Mauritius", - "Lowercase": false, - "Template#": 57 - } - }, - { - "full_text": "You can tell Daniel was a huge Daniel Ziegler fan. Written when he was only 14.", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Daniel", - "start_position": 13, - "end_position": 19 - }, - { - "entity_type": "PERSON", - "entity_value": "Daniel Ziegler", - "start_position": 31, - "end_position": 45 - } - ], - "tokens": [ - { - "text": "You", - "idx": 0, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "can", - "idx": 4, - "tag_": "MD", - "pos_": "VERB", - "dep_": "aux", - "lemma_": "can", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "tell", - "idx": 8, - "tag_": "VB", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "tell", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Daniel", - "idx": 13, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "dobj", - "lemma_": "Daniel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 20, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "ccomp", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "a", - "idx": 24, - "tag_": "DT", - "pos_": "DET", - "dep_": "det", - "lemma_": "a", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "huge", - "idx": 26, - "tag_": "JJ", - "pos_": "ADJ", - "dep_": "amod", - "lemma_": "huge", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Daniel", - "idx": 31, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Daniel", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Ziegler", - "idx": 38, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Ziegler", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "fan", - "idx": 46, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "attr", - "lemma_": "fan", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 49, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Written", - "idx": 51, - "tag_": "VBN", - "pos_": "VERB", - "dep_": "ROOT", - "lemma_": "write", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "when", - "idx": 59, - "tag_": "WRB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "when", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "he", - "idx": 64, - "tag_": "PRP", - "pos_": "PRON", - "dep_": "nsubj", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "was", - "idx": 67, - "tag_": "VBD", - "pos_": "AUX", - "dep_": "advcl", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "only", - "idx": 71, - "tag_": "RB", - "pos_": "ADV", - "dep_": "advmod", - "lemma_": "only", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "14", - "idx": 76, - "tag_": "CD", - "pos_": "NUM", - "dep_": "attr", - "lemma_": "14", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": ".", - "idx": 78, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": ".", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "U-PERSON", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O", - "O" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "German", - "Country": "Britain", - "Lowercase": false, - "Template#": 105 - } - }, - { - "full_text": "What's your name? Elbio Navarrete", - "masked": null, - "spans": [ - { - "entity_type": "PERSON", - "entity_value": "Elbio Navarrete", - "start_position": 18, - "end_position": 33 - } - ], - "tokens": [ - { - "text": "What", - "idx": 0, - "tag_": "WP", - "pos_": "PRON", - "dep_": "attr", - "lemma_": "what", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "'s", - "idx": 4, - "tag_": "VBZ", - "pos_": "AUX", - "dep_": "ROOT", - "lemma_": "be", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "your", - "idx": 7, - "tag_": "PRP$", - "pos_": "DET", - "dep_": "poss", - "lemma_": "-PRON-", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "name", - "idx": 12, - "tag_": "NN", - "pos_": "NOUN", - "dep_": "nsubj", - "lemma_": "name", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "?", - "idx": 16, - "tag_": ".", - "pos_": "PUNCT", - "dep_": "punct", - "lemma_": "?", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Elbio", - "idx": 18, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "compound", - "lemma_": "Elbio", - "_": { - "is_in_vocabulary": false - } - }, - { - "text": "Navarrete", - "idx": 24, - "tag_": "NNP", - "pos_": "PROPN", - "dep_": "ROOT", - "lemma_": "Navarrete", - "_": { - "is_in_vocabulary": false - } - } - ], - "tags": [ - "O", - "O", - "O", - "O", - "O", - "B-PERSON", - "L-PERSON" - ], - "template_id": null, - "metadata": { - "Gender": "male", - "NameSet": "Hispanic", - "Country": "Laos", - "Lowercase": false, - "Template#": 66 - } - } -] \ No newline at end of file diff --git a/tests/data/rocket_example_sentences.txt b/tests/data/rocket_example_sentences.txt deleted file mode 100644 index 5f3748c..0000000 --- a/tests/data/rocket_example_sentences.txt +++ /dev/null @@ -1,4 +0,0 @@ -My name is [FIRST_NAME] [LAST_NAME] and I fly a [ROCKET] -I'm [ROCKET] -The customer's name is [LAST_NAME], [FIRST_NAME] where is my [ROCKET] -The customer's name is [FIRST_NAME] [ROCKET] diff --git a/tests/data/templates.txt b/tests/data/templates.txt index b53abe6..429faa4 100644 --- a/tests/data/templates.txt +++ b/tests/data/templates.txt @@ -1,15 +1,14 @@ -My email is [EMAIL_ADDRESS] -My address is [ADDRESS] -My first name is [FIRST_NAME] and my last is [LAST_NAME] -My name is [PERSON] -My zip is [ZIP] -I live in [CITY] -Here's my phone number: [PHONE_NUMBER] -You want my credit card? No problem: [CREDIT_CARD] -I was born on [BIRTHDAY] -My full address is [FULL_ADDRESS] -My kids are [PERSON] and [PERSON2] -I either live on [ADDRESS] or [ADDRESS2] -Our last names are [LAST_NAME] and [LAST_NAME2] -My first name is [FIRST_NAME] and [FIRST_NAME2] -My accounts are [ACCOUNT_NUMBER] and [ACCOUNT_NUMBER2] \ No newline at end of file +My email is {{email}} +My address is {{address}} +My first name is {{first_name}} and my last is {{last_name}} +My name is {{name}} +My zip is {{zipcode}} +I live in {{city}} +Here's my phone number: {{phone_number}} +You want my credit card? No problem: {{credit_card_number}} +I was born on {{date_of_birth}} +My full address is {{address}} +My kids are {{name}} and {{name}} +I either live on {{address}} or {{address}} +Our last names are {{last_name}} and {{last_name}} +My first name is {{first_name}} and {{first_name}} \ No newline at end of file diff --git a/tests/mocks/model_mock.py b/tests/mocks/model_mock.py index e7df6ce..5e8fb2e 100644 --- a/tests/mocks/model_mock.py +++ b/tests/mocks/model_mock.py @@ -9,10 +9,14 @@ class MockTokensModel(BaseModel): Simulates a real model, returns the prediction given in the constructor """ - def __init__(self, prediction: Optional[List[str]], entities_to_keep: List = None, - verbose: bool = False, **kwargs): - super().__init__(entities_to_keep=entities_to_keep, verbose=verbose, - **kwargs) + def __init__( + self, + prediction: Optional[List[str]], + entities_to_keep: List = None, + verbose: bool = False, + **kwargs + ): + super().__init__(entities_to_keep=entities_to_keep, verbose=verbose, **kwargs) self.prediction = prediction def predict(self, sample: InputSample) -> List[str]: @@ -37,8 +41,7 @@ class FiftyFiftyIdentityTokensMockModel(BaseModel): alternately """ - def __init__(self, entities_to_keep: List = None, - verbose: bool = False): + def __init__(self, entities_to_keep: List = None, verbose: bool = False): super().__init__(entities_to_keep=entities_to_keep, verbose=verbose) self.counter = 0 diff --git a/tests/test_crf_model.py b/tests/test_crf_model.py index 9aaead5..f53ed0d 100644 --- a/tests/test_crf_model.py +++ b/tests/test_crf_model.py @@ -1,26 +1,35 @@ import numpy as np import pytest +from presidio_evaluator import InputSample from presidio_evaluator.evaluation import Evaluator from presidio_evaluator.models.crf_model import CRFModel -from presidio_evaluator.data_generator import read_synth_dataset # no_test since the CRF model is not supplied with the package @pytest.mark.skip(reason="CRF suite is not installed by default") def test_test_crf_simple(): import os + dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(os.path.join(dir_path, "data/generated_small.txt")) + input_samples = InputSample.read_dataset_json( + os.path.join(dir_path, "data/generated_small.json") + ) - model_path = os.path.abspath(os.path.join(dir_path, "..", "model-outputs/crf.pickle")) + model_path = os.path.abspath( + os.path.join(dir_path, "..", "model-outputs/crf.pickle") + ) - crf_model = CRFModel(model_pickle_path=model_path, entities_to_keep=['PERSON']) + crf_model = CRFModel(model_pickle_path=model_path, entities_to_keep=["PERSON"]) evaluator = Evaluator(model=crf_model) evaluation_results = evaluator.evaluate_all(input_samples) scores = evaluator.calculate_score(evaluation_results) - np.testing.assert_almost_equal(scores.pii_precision, scores.entity_precision_dict['PERSON']) - np.testing.assert_almost_equal(scores.pii_recall, scores.entity_recall_dict['PERSON']) + np.testing.assert_almost_equal( + scores.pii_precision, scores.entity_precision_dict["PERSON"] + ) + np.testing.assert_almost_equal( + scores.pii_recall, scores.entity_recall_dict["PERSON"] + ) assert scores.pii_recall > 0 assert scores.pii_precision > 0 diff --git a/tests/test_data_objects.py b/tests/test_data_objects.py index 23fce40..2d88147 100644 --- a/tests/test_data_objects.py +++ b/tests/test_data_objects.py @@ -1,22 +1,45 @@ -from presidio_evaluator import InputSample -from presidio_evaluator.data_generator import read_synth_dataset +import pytest +import spacy + +from presidio_evaluator import InputSample, Span + +from presidio_evaluator.data_generator.faker_extensions import ( + FakerSpansResult, + FakerSpan, +) + + +@pytest.fixture(scope="session") +def faker_span_result(): + return FakerSpansResult( + fake="Dan is my name.", + spans=[FakerSpan("Dan", 0, 3, "name")], + template="{{name}} is my name.", + template_id=3, + ) def test_to_conll(): import os + dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(os.path.join(dir_path, "data/generated_small.txt")) + input_samples = InputSample.read_dataset_json( + os.path.join(dir_path, "data/generated_small.json") + ) conll = InputSample.create_conll_dataset(input_samples) - sentences = conll['sentence'].unique() + sentences = conll["sentence"].unique() assert len(sentences) == len(input_samples) def test_to_spacy_all_entities(): import os + dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(os.path.join(dir_path, "data/generated_small.txt")) + input_samples = InputSample.read_dataset_json( + os.path.join(dir_path, "data/generated_small.json") + ) spacy_ver = InputSample.create_spacy_dataset(input_samples) @@ -25,24 +48,86 @@ def test_to_spacy_all_entities(): def test_to_spacy_all_entities_specific_entities(): import os + dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(os.path.join(dir_path, "data/generated_small.txt")) + input_samples = InputSample.read_dataset_json( + os.path.join(dir_path, "data/generated_small.json") + ) - spacy_ver = InputSample.create_spacy_dataset(input_samples, entities=['PERSON']) + spacy_ver = InputSample.create_spacy_dataset(input_samples, entities=["PERSON"]) - spacy_ver_with_labels = [sample for sample in spacy_ver if len(sample[1]['entities'])] + spacy_ver_with_labels = [ + sample for sample in spacy_ver if len(sample[1]["entities"]) + ] assert len(spacy_ver_with_labels) < len(input_samples) assert len(spacy_ver_with_labels) > 0 -def test_to_spach_json(): +def test_to_spacy_json(): import os + dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(os.path.join(dir_path, "data/generated_small.txt")) + input_samples = InputSample.read_dataset_json( + os.path.join(dir_path, "data/generated_small.json") + ) spacy_ver = InputSample.create_spacy_json(input_samples) assert len(spacy_ver) == len(input_samples) - assert 'id' in spacy_ver[0] - assert 'paragraphs' in spacy_ver[0] + assert "id" in spacy_ver[0] + assert "paragraphs" in spacy_ver[0] + + +def test_faker_spans_result_to_input_sample(faker_span_result): + + input_sample = InputSample.from_faker_spans_result( + faker_span_result, create_tags_from_span=False + ) + + assert input_sample.full_text == "Dan is my name." + assert input_sample.masked == "{{name}} is my name." + assert input_sample.spans[0] == Span("name", "Dan", 0, 3) + assert input_sample.spans[0] == Span("name", "Dan", 0, 3) + + +def test_faker_spans_to_input_sample_with_tags(faker_span_result): + input_sample = InputSample.from_faker_spans_result( + faker_span_result, create_tags_from_span=True, scheme="BILUO" + ) + assert input_sample.tags + assert input_sample.tokens + assert any(["I-name" in tag for tag in input_sample.tags]) + + +def test_from_spacy_doc(): + nlp = spacy.load("en_core_web_sm") + doc = nlp("Nice to meet you Mr. Perkins.") + + sample = InputSample.from_spacy_doc(doc) + assert sample.spans[0].entity_type == "PERSON" + assert sample.tags == ["O", "O", "O", "O", "O", "U-PERSON", "O"] + + +@pytest.mark.parametrize( + "start1, end1, start2, end2, intersection_length, ignore_entity_type", + [ + (150, 153, 160, 165, 0, True), + (150, 153, 150, 153, 3, True), + (150, 153, 152, 154, 1, True), + (150, 153, 100, 151, 1, True), + (150, 153, 100, 151, 0, False), + ], +) +def test_spans_intersection( + start1, end1, start2, end2, intersection_length, ignore_entity_type +): + span1 = Span( + entity_type="A", entity_value="123", start_position=start1, end_position=end1 + ) + span2 = Span( + entity_type="B", entity_value="123", start_position=start2, end_position=end2 + ) + + intersection = span1.intersect(span2, ignore_entity_type=ignore_entity_type) + assert intersection == intersection_length diff --git a/tests/test_evaluator.py b/tests/test_evaluator.py index aed9b2e..8319e05 100644 --- a/tests/test_evaluator.py +++ b/tests/test_evaluator.py @@ -4,7 +4,7 @@ import pytest from presidio_evaluator import InputSample, Span -from presidio_evaluator.data_generator import read_synth_dataset + from presidio_evaluator.evaluation import EvaluationResult, Evaluator from tests.mocks import ( IdentityTokensMockModel, @@ -265,8 +265,8 @@ def test_dataset_to_metric_identity_model(): import os dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset( - "{}/data/generated_small.txt".format(dir_path), length=10 + input_samples = InputSample.read_dataset_json( + "{}/data/generated_small.json".format(dir_path), length=10 ) model = IdentityTokensMockModel() @@ -282,8 +282,8 @@ def test_dataset_to_metric_50_50_model(): import os dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset( - "{}/data/generated_small.txt".format(dir_path), length=100 + input_samples = InputSample.read_dataset_json( + "{}/data/generated_small.json".format(dir_path), length=100 ) # Replace 50% of the predictions with a list of "O" diff --git a/tests/test_flair_model.py b/tests/test_flair_model.py index 6011c15..dc7febd 100644 --- a/tests/test_flair_model.py +++ b/tests/test_flair_model.py @@ -1,5 +1,6 @@ import pytest +from presidio_evaluator import InputSample from presidio_evaluator.evaluation import Evaluator try: @@ -7,7 +8,7 @@ except: ImportError("Flair is not installed by default") -from presidio_evaluator.data_generator import read_synth_dataset + from presidio_evaluator.models.flair_model import FlairModel import numpy as np @@ -19,8 +20,8 @@ def test_flair_simple(): import os dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset( - os.path.join(dir_path, "data/generated_small.txt") + input_samples = InputSample.read_dataset_json( + os.path.join(dir_path, "data/generated_small.json") ) model = SequenceTagger.load("ner-ontonotes-fast") # .load('ner') diff --git a/tests/test_generator.py b/tests/test_generator.py index 113516b..51cc584 100644 --- a/tests/test_generator.py +++ b/tests/test_generator.py @@ -1,82 +1,51 @@ -from presidio_evaluator.data_generator import generate, read_synth_dataset, FakeDataGenerator -from tests import get_mock_fake_df +import os +from pathlib import Path +import pandas as pd +import pytest +from faker import Faker -def get_fake_generator(template, fake_pii_df): - class MockFakeGenerator(FakeDataGenerator): - """ - Mock class that doesn't add to the fake PII DF so you could inject entities yourself. - """ - - def __init__(self, **kwargs): - super().__init__(**kwargs) - - def prep_fake_pii(self, df): - return df - - return MockFakeGenerator(templates=[template], - fake_pii_df=fake_pii_df, - include_metadata=False, - span_to_tag=False, - dictionary_path=None, - lower_case_ratio=0) +from presidio_evaluator.data_generator import PresidioDataGenerator +from presidio_evaluator.data_generator.faker_extensions import RecordGenerator def test_generator_correct_output(): - OUTPUT = "generated_test.txt" - EXAMPLES = 3 - import os dir_path = os.path.dirname(os.path.realpath(__file__)) - fake_pii_csv = "{}/data/FakeNameGenerator.com_100.csv".format(dir_path) - utterances_file = "{}/data/templates.txt".format(dir_path) - dictionary = "{}/data/Dictionary_test.csv".format(dir_path) - - generate(fake_pii_csv=fake_pii_csv, - utterances_file=utterances_file, - dictionary_path=dictionary, - output_file=OUTPUT, - lower_case_ratio=0.3, - num_of_examples=EXAMPLES) - - input_samples = read_synth_dataset(OUTPUT) - - for sample in input_samples: - assert len(sample.tags) == len(sample.tokens) + fake_pii_csv = Path(dir_path, "data/FakeNameGenerator.com_100.csv") + template_file_path = Path(dir_path, "data/templates.txt") + # Read FakeNameGenerator data + fake_data = pd.read_csv(fake_pii_csv) + # Convert column names to lowercase to match patterns + PresidioDataGenerator.update_fake_name_generator_df(fake_data) + records = fake_data.to_dict(orient="records") + generator = RecordGenerator(records=records) -def test_a_turned_to_an(): - fake_pii_df = get_mock_fake_df(GENDER="Ale") - template = "I am a [GENDER] living in [COUNTRY]" - bracket_location = template.find("[") - fake_generator = get_fake_generator(fake_pii_df=fake_pii_df, - template=template) + # Create Faker and add additional specific providers + faker = Faker(generator=generator) + data_generator = PresidioDataGenerator(custom_faker=faker, lower_case_ratio=0.0) - examples = [x for x in fake_generator.sample_examples(1)] - assert " an " in examples[0].full_text - # entity location updated - assert examples[0].spans[0].start_position == bracket_location + 1 + sentence_templates = PresidioDataGenerator.read_template_file(template_file_path) + fake_sentences = data_generator.generate_fake_data( + templates=sentence_templates, n_samples=100 + ) + for sample in fake_sentences: + assert sample.fake + assert sample.template + assert sample.template_id >= 0 -def test_a_not_turning_into_an(): - fake_pii_df = get_mock_fake_df(GENDER="Male") - template = "I am a [GENDER] living in [COUNTRY]" - previous_bracket = template.find("[") - fake_generator = get_fake_generator(fake_pii_df=fake_pii_df, - template=template) - examples = [x for x in fake_generator.sample_examples(1)] - assert " an " not in examples[0].full_text - assert examples[0].spans[0].start_position == previous_bracket +def test_new_provider_no_alias_raises_attribute_error(): + data_generator = PresidioDataGenerator(lower_case_ratio=0.0) + with pytest.raises(AttributeError): + data_generator.parse("My doctor is {{doc_name}}", 0) -def test_A_turning_into_An(): - fake_pii_df = get_mock_fake_df(GENDER="ale") - template = "A [GENDER] living in [COUNTRY]" - previous_bracket = template.find("[") - fake_generator = get_fake_generator(fake_pii_df=fake_pii_df, - template=template) - examples = [x for x in fake_generator.sample_examples(1)] - assert "An " in examples[0].full_text - assert examples[0].spans[0].start_position == previous_bracket + 1 \ No newline at end of file +def test_new_provider_with_alias(): + data_generator = PresidioDataGenerator(lower_case_ratio=0.0) + data_generator.add_provider_alias("name", "doc_name") + res = data_generator.parse(template="My doctor is {{doc_name}}", template_id=0) + assert res diff --git a/tests/test_presidio_analyzer_wrapper.py b/tests/test_presidio_analyzer_wrapper.py index f6ee293..c017ad7 100644 --- a/tests/test_presidio_analyzer_wrapper.py +++ b/tests/test_presidio_analyzer_wrapper.py @@ -1,7 +1,7 @@ import pytest from presidio_evaluator import InputSample, Span -from presidio_evaluator.data_generator import read_synth_dataset + from presidio_evaluator.evaluation import Evaluator from presidio_evaluator.models.presidio_analyzer_wrapper import PresidioAnalyzerWrapper @@ -27,7 +27,7 @@ def to_pytest_param(self): # small set fixture which expects all results. GeneratedTextTestCase( test_name="small-set", - test_input="{}/data/generated_small.txt", + test_input="{}/data/generated_small.json", acceptance_threshold=0.3, marks=pytest.mark.none, ) @@ -60,20 +60,21 @@ def test_analyzer_simple_input(): ) def test_analyzer_with_generated_text(test_input, acceptance_threshold): """ - Test analyzer with a generated dataset text file - :param test_input: input text file location - :param acceptance_threshold: minimim precision/recall - allowed for tests to pass + Test analyzer with a generated dataset text file + :param test_input: input text file location + :param acceptance_threshold: minimum precision/recall + allowed for tests to pass """ # read test input from generated file import os dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(test_input.format(dir_path)) + input_samples = InputSample.read_dataset_json(test_input.format(dir_path)) updated_samples = Evaluator.align_entity_types( - input_samples=input_samples, entities_mapping=PresidioAnalyzerWrapper.presidio_entities_map + input_samples=input_samples, + entities_mapping=PresidioAnalyzerWrapper.presidio_entities_map, ) analyzer = PresidioAnalyzerWrapper() diff --git a/tests/test_presidio_perturb.py b/tests/test_presidio_perturb.py deleted file mode 100644 index 7fe7d9d..0000000 --- a/tests/test_presidio_perturb.py +++ /dev/null @@ -1,86 +0,0 @@ -import pytest -from presidio_analyzer import RecognizerResult - -from presidio_evaluator.data_generator.presidio_perturb import PresidioPerturb -from tests import get_mock_fake_df - -import pandas as pd - - -@pytest.mark.parametrize( - # fmt: off - "text, entity1, entity2, start1, end1, start2, end2", - [ - ( - "Hi I live in South Africa and my name is Toma", - "LOCATION", "PERSON", 13, 25, 41, 45, - ), - ("Africa is my continent, James", "LOCATION", "PERSON", 0, 6, 24, 29,), - ], - # fmt: on -) -def test_presidio_perturb_two_entities( - text, entity1, entity2, start1, end1, start2, end2 -): - - presidio_response = [ - RecognizerResult(entity_type=entity1, start=start1, end=end1, score=0.85), - RecognizerResult(entity_type=entity2, start=start2, end=end2, score=0.85), - ] - presidio_perturb = PresidioPerturb(fake_pii_df=get_mock_fake_df()) - fake_df = presidio_perturb.fake_pii - perturbations = presidio_perturb.perturb( - original_text=text, presidio_response=presidio_response, count=5 - ) - - assert len(perturbations) == 5 - for perturbation in perturbations: - assert fake_df[entity1].str.lower()[0] in perturbation.lower() - assert fake_df[entity2].str.lower()[0] in perturbation.lower() - assert text[:start1].lower() in perturbation.lower() - assert text[end1:start2].lower() in perturbation.lower() - - -def test_entity_translation(): - text = "My email is email@email.com" - - presidio_response = [ - RecognizerResult(entity_type="EMAIL_ADDRESS", start=12, end=27, score=0.5) - ] - - presidio_perturb = PresidioPerturb(fake_pii_df=get_mock_fake_df()) - fake_df = presidio_perturb.fake_pii - perturbations = presidio_perturb.perturb( - original_text=text, presidio_response=presidio_response, count=1 - ) - - assert fake_df["EMAIL_ADDRESS"].str.lower()[0] in perturbations[0] - - -def test_subset_perturbation(): - text = "My name is Dan" - presidio_response = [ - RecognizerResult(entity_type="PERSON", start=11, end=14, score=0.5) - ] - - fake_df = pd.DataFrame( - { - "FIRST_NAME": ["Neta", "George"], - "LAST_NAME": ["Levy", "Harrison"], - "GENDER": ["Female", "Male"], - "NameSet": ["Hebrew", "English"], - } - ) - ignore_types = {"DATE_TIME", "LOCATION", "ADDRESS", "GENDER"} - - presidio_perturb = PresidioPerturb(fake_pii_df=fake_df, ignore_types=ignore_types) - - perturbations = presidio_perturb.perturb( - original_text=text, - presidio_response=presidio_response, - namesets=["Hebrew"], - genders=["Female"], - count=5, - ) - for pert in perturbations: - assert "neta" in pert.lower() diff --git a/tests/test_presidio_pseudonymize.py b/tests/test_presidio_pseudonymize.py new file mode 100644 index 0000000..a6d28ed --- /dev/null +++ b/tests/test_presidio_pseudonymize.py @@ -0,0 +1,53 @@ +import pytest +from faker import Faker +from faker.providers import DynamicProvider +from presidio_analyzer import RecognizerResult + +from presidio_evaluator.data_generator import PresidioPseudonymization + + +@pytest.fixture(scope="session") +def fake_faker(): + + faker = Faker() + person_provider = DynamicProvider("PERSON", ["James"]) + location_provider = DynamicProvider("LOCATION", ["Africa"]) + faker.add_provider(person_provider) + faker.add_provider(location_provider) + + return faker + + +@pytest.mark.parametrize( + # fmt: off + "text, entity1, entity2, start1, end1, start2, end2, value1, value2", + [ + ( + "Hi I live in South Africa and my name is Toma", + "LOCATION", "PERSON", 13, 25, 41, 45, "Africa", "James" + ), + ("Africa is my continent, James", "LOCATION", "PERSON", 0, 6, 24, 29, "Africa", "James"), + ], + # fmt: on +) +def test_presidio_psudonymize_two_entities( + text, entity1, entity2, start1, end1, start2, end2, value1, value2, fake_faker +): + + presidio_response = [ + RecognizerResult(entity_type=entity1, start=start1, end=end1, score=0.85), + RecognizerResult(entity_type=entity2, start=start2, end=end2, score=0.85), + ] + presidio_pseudonymizer = PresidioPseudonymization( + custom_faker=fake_faker, lower_case_ratio=0.0, map_to_presidio_entities=False + ) + pseudonyms = presidio_pseudonymizer.pseudonymize( + original_text=text, presidio_response=presidio_response, count=5 + ) + + assert len(pseudonyms) == 5 + for pseudonym in pseudonyms: + assert value1 in pseudonym + assert value2 in pseudonym + assert text[:start1].lower() in pseudonym.lower() + assert text[end1:start2].lower() in pseudonym.lower() diff --git a/tests/test_providers.py b/tests/test_providers.py new file mode 100644 index 0000000..21dff03 --- /dev/null +++ b/tests/test_providers.py @@ -0,0 +1,20 @@ +from faker import Faker + +from presidio_evaluator.data_generator.faker_extensions import ( + NationalityProvider, + OrganizationProvider, +) + + +def test_nationality_provider(): + faker = Faker() + faker.add_provider(NationalityProvider) + element = faker.nation_man() + assert element + + +def test_organization_provider(): + faker = Faker() + faker.add_provider(OrganizationProvider) + element = faker.organization() + assert element diff --git a/tests/test_recognizers_generated_text.py b/tests/test_recognizers_generated_text.py index 713d6df..33791d2 100644 --- a/tests/test_recognizers_generated_text.py +++ b/tests/test_recognizers_generated_text.py @@ -1,4 +1,4 @@ -from presidio_evaluator.data_generator import read_synth_dataset +from presidio_evaluator import InputSample from presidio_evaluator.evaluation.scorers import score_presidio_recognizer import pytest @@ -26,14 +26,14 @@ def to_pytest_param(self): # small set fixture which expects all type results. GeneratedTextTestCase( test_name="small-set", - test_input="{}/data/generated_small.txt", + test_input="{}/data/generated_small.json", acceptance_threshold=1, marks=pytest.mark.none, ), # large set fixture which expects all type results. marked as "slow" GeneratedTextTestCase( test_name="large_set", - test_input="{}/data/generated_large.txt", + test_input="{}/data/generated_large.json", acceptance_threshold=1, marks=pytest.mark.slow, ), @@ -57,7 +57,7 @@ def test_credit_card_recognizer_with_generated_text(test_input, acceptance_thres import os dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(test_input.format(dir_path)) + input_samples = InputSample.read_dataset_json(test_input.format(dir_path)) scores = score_presidio_recognizer( recognizer=CreditCardRecognizer(), entities_to_keep=["CREDIT_CARD"], diff --git a/tests/test_recognizers_template_csv.py b/tests/test_recognizers_template_csv.py index bbd01b5..ad61582 100644 --- a/tests/test_recognizers_template_csv.py +++ b/tests/test_recognizers_template_csv.py @@ -1,4 +1,5 @@ -from presidio_evaluator.data_generator import generate +from presidio_evaluator import InputSample +from presidio_evaluator.data_generator import PresidioDataGenerator from presidio_evaluator.evaluation.scorers import score_presidio_recognizer import pytest import numpy as np @@ -10,6 +11,7 @@ class TemplateTextTestCase: """ Test case parameters for tests with dataset generated from a template and csv values """ + def __init__( self, test_name, @@ -84,13 +86,15 @@ def test_credit_card_recognizer_with_template( dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = generate( - fake_pii_csv=pii_csv.format(dir_path), - utterances_file=utterances.format(dir_path), - dictionary_path=dictionary_path.format(dir_path), - lower_case_ratio=0.5, - num_of_examples=num_of_examples, + # generate examples + generator = PresidioDataGenerator() + templates = utterances.format(dir_path) + examples = generator.generate_fake_data( + templates=templates, n_samples=num_of_examples ) + input_samples = [ + InputSample.from_faker_spans_result(example) for example in examples + ] scores = score_presidio_recognizer( recognizer=CreditCardRecognizer(), diff --git a/tests/test_recognizers_template_join_csv.py b/tests/test_recognizers_template_join_csv.py index 106705e..226d255 100644 --- a/tests/test_recognizers_template_join_csv.py +++ b/tests/test_recognizers_template_join_csv.py @@ -1,4 +1,5 @@ -from presidio_evaluator.data_generator import FakeDataGenerator +from presidio_evaluator import InputSample +from presidio_evaluator.data_generator import PresidioDataGenerator from presidio_evaluator.evaluation.scorers import score_presidio_recognizer import pandas as pd import pytest @@ -12,6 +13,7 @@ class PatternRecognizerTestCase: Test case parameters for tests with dataset generated from a template and two csv value files, one containing the common-entities and another one with custom entities. """ + def __init__( self, test_name, @@ -158,12 +160,14 @@ def get_from_ext(i): dfpii[ext_column_name] = [get_from_ext(i) for i in range(0, dfpii.shape[0])] # generate examples - generator = FakeDataGenerator( - fake_pii_df=dfpii, - templates=utterances.format(dir_path), - dictionary_path=dictionary_path, + generator = PresidioDataGenerator() + templates = utterances.format(dir_path) + examples = generator.generate_fake_data( + templates=templates, n_samples=num_of_examples ) - examples = generator.sample_examples(num_of_examples) + input_samples = [ + InputSample.from_faker_spans_result(example) for example in examples + ] pattern = Pattern("test pattern", pattern, score) pattern_recognizer = PatternRecognizer( @@ -173,7 +177,7 @@ def get_from_ext(i): scores = score_presidio_recognizer( recognizer=pattern_recognizer, entities_to_keep=[entity_name], - input_samples=examples, + input_samples=input_samples, ) if not np.isnan(scores.pii_f): assert acceptance_threshold <= scores.pii_f diff --git a/tests/test_spacy_model.py b/tests/test_spacy_model.py index 6209429..060c0e1 100644 --- a/tests/test_spacy_model.py +++ b/tests/test_spacy_model.py @@ -1,20 +1,28 @@ -from presidio_evaluator.data_generator import read_synth_dataset +import numpy as np + +from presidio_evaluator import InputSample from presidio_evaluator.evaluation import Evaluator from presidio_evaluator.models.spacy_model import SpacyModel -import numpy as np def test_spacy_simple(): import os + dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(os.path.join(dir_path, "data/generated_small.txt")) + input_samples = InputSample.read_dataset_json( + os.path.join(dir_path, "data/generated_small.json") + ) - spacy_model = SpacyModel(model_name="en_core_web_lg", entities_to_keep=['PERSON']) + spacy_model = SpacyModel(model_name="en_core_web_sm", entities_to_keep=["PERSON"]) evaluator = Evaluator(model=spacy_model) evaluation_results = evaluator.evaluate_all(input_samples) scores = evaluator.calculate_score(evaluation_results) - np.testing.assert_almost_equal(scores.pii_precision, scores.entity_precision_dict['PERSON']) - np.testing.assert_almost_equal(scores.pii_recall, scores.entity_recall_dict['PERSON']) + np.testing.assert_almost_equal( + scores.pii_precision, scores.entity_precision_dict["PERSON"] + ) + np.testing.assert_almost_equal( + scores.pii_recall, scores.entity_recall_dict["PERSON"] + ) assert scores.pii_recall > 0 assert scores.pii_precision > 0 diff --git a/tests/test_spacy_recognizer_generated_text.py b/tests/test_spacy_recognizer_generated_text.py index 1141eb4..7af9034 100644 --- a/tests/test_spacy_recognizer_generated_text.py +++ b/tests/test_spacy_recognizer_generated_text.py @@ -1,14 +1,15 @@ -from presidio_evaluator.data_generator import read_synth_dataset -from presidio_evaluator.evaluation.scorers import score_presidio_recognizer - import pytest from presidio_analyzer.predefined_recognizers.spacy_recognizer import SpacyRecognizer +from presidio_evaluator import InputSample +from presidio_evaluator.evaluation.scorers import score_presidio_recognizer + class GeneratedTextTestCase: """ Test case parameters for tests with dataset which was previously generated. """ + def __init__(self, test_name, test_input, acceptance_threshold, marks): self.test_name = test_name self.test_input = test_input @@ -29,14 +30,14 @@ def to_pytest_param(self): # small dataset, inconclusive results GeneratedTextTestCase( test_name="small-set", - test_input="{}/data/generated_small.txt", + test_input="{}/data/generated_small.json", acceptance_threshold=0.5, marks=pytest.mark.inconclusive, ), # large dataset - test is slow and inconclusive GeneratedTextTestCase( test_name="large-set", - test_input="{}/data/generated_large.txt", + test_input="{}/data/generated_large.json", acceptance_threshold=0.5, marks=pytest.mark.slow, ), @@ -60,7 +61,7 @@ def test_spacy_recognizer_with_generated_text(test_input, acceptance_threshold): import os dir_path = os.path.dirname(os.path.realpath(__file__)) - input_samples = read_synth_dataset(test_input.format(dir_path)) + input_samples = InputSample.read_dataset_json(test_input.format(dir_path)) scores = score_presidio_recognizer( SpacyRecognizer(), ["PERSON"], input_samples, with_nlp_artifacts=True ) diff --git a/tests/test_span_generator.py b/tests/test_span_generator.py index 7ee42be..809654e 100644 --- a/tests/test_span_generator.py +++ b/tests/test_span_generator.py @@ -4,8 +4,8 @@ from presidio_evaluator.data_generator.faker_extensions import ( SpanGenerator, - Span, - SpansResult, + FakerSpan, + FakerSpansResult, ) @@ -60,10 +60,10 @@ def test_multiple_replacements(span_faker): pattern = "{{foo}} and then {{foo2}}, {{ foofoofoo }} and finally {{foo3}}." expected = "bar and then barbar, bar and finally barbarbar." expected_spans = [ - Span(value="bar", start=0, end=3, type="foo"), - Span(value="barbar", start=13, end=19, type="foo2"), - Span(value="bar", start=21, end=24, type="foofoofoo"), - Span(value="barbarbar", start=37, end=46, type="foo3"), + FakerSpan(value="bar", start=0, end=3, type="foo"), + FakerSpan(value="barbar", start=13, end=19, type="foo2"), + FakerSpan(value="bar", start=21, end=24, type="foofoofoo"), + FakerSpan(value="barbarbar", start=37, end=46, type="foo3"), ] res = span_faker.parse(pattern, add_spans=True) @@ -77,12 +77,12 @@ def test_multiple_replacements(span_faker): def test_spans_result_repr(): - sr = SpansResult(fake="momo", spans=[Span("momo", 0, 4, type="name")]) + sr = FakerSpansResult(fake="momo", spans=[FakerSpan("momo", 0, 4, type="name")]) expected = ( - '{"fake": "momo", "spans": "[{\\"value\\": \\"momo\\", ' - '\\"start\\": 0, ' - '\\"end\\": 4, ' - '\\"type\\": \\"name\\"}]"}' + '{"fake": "momo", ' + '"spans": [{"value": "momo", "start": 0, "end": 4, "type": "name"}],' + ' "template": null, ' + '"template_id": null}' ) assert sr.__repr__() == expected @@ -116,11 +116,12 @@ def test_generated_text_contains_spans_text(span_faker): @pytest.mark.parametrize( - "pattern, non_element_text",[ + "pattern, non_element_text", + [ ("{{name}} My name is {{name}}", " My name is "), ("a b {{name}}{{name}}{{name}}", "a b "), ("...{{name}}{{name}} {{name}}...", "... ..."), - ] + ], ) def test_generated_text_duplicate_types_returns_different_results( span_faker, pattern, non_element_text @@ -135,9 +136,13 @@ def test_generated_text_duplicate_types_returns_different_results( # assert that the non-element text is identical substring_indices = list(range(len(res.fake))) for span in res.spans: - substring_indices = [ind for ind in substring_indices if ind not in range(span.start, span.end)] + substring_indices = [ + ind for ind in substring_indices if ind not in range(span.start, span.end) + ] - actual_non_element_text = "".join([res.fake[i] for i in range(len(res.fake)) if i in substring_indices]) + actual_non_element_text = "".join( + [res.fake[i] for i in range(len(res.fake)) if i in substring_indices] + ) assert actual_non_element_text == non_element_text # assert that names are different from each other diff --git a/tests/test_span_to_tag.py b/tests/test_span_to_tag.py index d677c14..f1dce20 100644 --- a/tests/test_span_to_tag.py +++ b/tests/test_span_to_tag.py @@ -209,14 +209,29 @@ def test_overlapping_entities_second_embedded_in_first_has_lower_score(): io = span_to_tag(scheme=IO_SCHEME, text=text, start=start, end=end, tag=tag, scores=scores) assert io == expected + def test_overlapping_entities_pyramid(): text = "My new phone number is 1 705 999 774 8720. Thanks, cya" start = [23, 25, 29] end = [41, 36, 32] scores = [0.6, 0.7, 0.8] - tag = ["A1", "B2","C3"] + tag = ["A1", "B2", "C3"] expected = ['O', 'O', 'O', 'O', 'O', 'A1', 'B2', 'C3', 'B2', 'A1', 'O', 'O', 'O', 'O'] io = span_to_tag(scheme=IO_SCHEME, text=text, start=start, end=end, tag=tag, scores=scores) assert io == expected + + +def test_token_contains_span(): + # The last token here (https://www.gmail.com/) contains the span (www.gmail.com). + # In this case the token should be tagged as the span tag, even if not all of it is covered by the span. + + text = "My website is https://www.gmail.com/" + start = [22] + end = [35] + scores = [1.0] + tag = ["DOMAIN_NAME"] + expected = ["O", "O", "O", "DOMAIN_NAME"] + io = span_to_tag(scheme=IO_SCHEME, text=text, start=start, end=end, tag=tag, scores=scores) + assert io == expected # fmt: on diff --git a/tests/test_validation.py b/tests/test_validation.py index 6ec811f..97f6c16 100644 --- a/tests/test_validation.py +++ b/tests/test_validation.py @@ -1,40 +1,75 @@ import pytest from presidio_evaluator import InputSample -from presidio_evaluator.validation import split_by_template, get_samples_by_pattern, split_dataset - - -def get_mock_dataset(): - sample1 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 1}) - sample2 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 1}) - sample3 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 1}) - sample4 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 1}) - sample5 = InputSample("Bye there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 2}) - sample6 = InputSample("Bye there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 3}) - sample7 = InputSample("Bye there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 4}) - sample8 = InputSample("Bye there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 4}) +from presidio_evaluator.validation import ( + split_by_template, + get_samples_by_pattern, + split_dataset, +) + + +@pytest.fixture(scope="session") +def mock_4_samples(): + + samples = [] + for i in range(4): + sample = InputSample( + "Hi there", + masked=None, + spans=None, + create_tags_from_span=False, + template_id=i + 1, + ) + samples.append(sample) + return samples + + +@pytest.fixture(scope="session") +def mock_8_samples(): + sample1 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=1 + ) + sample2 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=1 + ) + sample3 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=1 + ) + sample4 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=1 + ) + sample5 = InputSample( + "Bye there", masked=None, spans=None, create_tags_from_span=False, template_id=2 + ) + sample6 = InputSample( + "Bye there", masked=None, spans=None, create_tags_from_span=False, template_id=3 + ) + sample7 = InputSample( + "Bye there", masked=None, spans=None, create_tags_from_span=False, template_id=4 + ) + sample8 = InputSample( + "Bye there", masked=None, spans=None, create_tags_from_span=False, template_id=4 + ) return [sample1, sample2, sample3, sample4, sample5, sample6, sample7, sample8] -def test_split_by_template(): - dataset = get_mock_dataset() - train_templates, test_templates = split_by_template(dataset, 0.5) +def test_split_by_template(mock_8_samples): + train_templates, test_templates = split_by_template(mock_8_samples, 0.5) assert len(train_templates) == 2 assert len(test_templates) == 2 -def test_get_samples_by_pattern(): - dataset = get_mock_dataset() - train_templates, test_templates = split_by_template(dataset, 0.5) - train_samples = get_samples_by_pattern(dataset, train_templates) - test_samples = get_samples_by_pattern(dataset, test_templates) +def test_get_samples_by_pattern(mock_8_samples): + train_templates, test_templates = split_by_template(mock_8_samples, 0.5) + train_samples = get_samples_by_pattern(mock_8_samples, train_templates) + test_samples = get_samples_by_pattern(mock_8_samples, test_templates) - dataset_templates = set([sample.metadata['Template#'] for sample in dataset]) - train_samples_templates = set([sample.metadata['Template#'] for sample in train_samples]) - test_samples_templates = set([sample.metadata['Template#'] for sample in test_samples]) + dataset_templates = set([sample.template_id for sample in mock_8_samples]) + train_samples_templates = set([sample.template_id for sample in train_samples]) + test_samples_templates = set([sample.template_id for sample in test_samples]) - assert len(train_samples) + len(test_samples) == len(dataset) + assert len(train_samples) + len(test_samples) == len(mock_8_samples) assert dataset_templates == train_samples_templates | test_samples_templates assert train_samples_templates & test_samples_templates == set() assert train_samples_templates == set(train_templates) @@ -42,54 +77,73 @@ def test_get_samples_by_pattern(): def test_split_dataset_two_sets(): - sample1 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 1}) - sample2 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 2}) - sample3 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 3}) - sample4 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 4}) + sample1 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=1 + ) + sample2 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=2 + ) + sample3 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=3 + ) + sample4 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=4 + ) train, test = split_dataset([sample1, sample2, sample3, sample4], [0.5, 0.5]) assert len(train) == 2 assert len(test) == 2 -def test_split_dataset_four_sets(): - sample1 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 1}) - sample2 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 2}) - sample3 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 3}) - sample4 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 4}) - dataset = [sample1, sample2, sample3, sample4] - train, test, val, dev = split_dataset(dataset, [0.25, 0.25, 0.25, 0.25]) +def test_split_dataset_four_sets(mock_4_samples): + + train, test, val, dev = split_dataset(mock_4_samples, [0.25, 0.25, 0.25, 0.25]) assert len(train) == 1 assert len(test) == 1 assert len(val) == 1 assert len(dev) == 1 - # make sure all original template IDs are in the new sets original_keys = set([1, 2, 3, 4]) - t1 = set([sample.metadata['Template#'] for sample in train]) - t2 = set([sample.metadata['Template#'] for sample in test]) - t3 = set([sample.metadata['Template#'] for sample in dev]) - t4 = set([sample.metadata['Template#'] for sample in val]) + t1 = set([sample.template_id for sample in train]) + t2 = set([sample.template_id for sample in test]) + t3 = set([sample.template_id for sample in dev]) + t4 = set([sample.template_id for sample in val]) assert original_keys == t1 | t2 | t3 | t4 def test_split_dataset_test_with_0_ratio(): - sample1 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 1}) - sample2 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 2}) - sample3 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 3}) - sample4 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 4}) + sample1 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=1 + ) + sample2 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=2 + ) + sample3 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=3 + ) + sample4 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=4 + ) dataset = [sample1, sample2, sample3, sample4] with pytest.raises(ValueError): train, test, zero = split_dataset(dataset, [0.5, 0.5, 0]) def test_split_dataset_test_with_smallish_ratio(): - sample1 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 1}) - sample2 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 2}) - sample3 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 3}) - sample4 = InputSample("Hi there", masked=None, spans=None, create_tags_from_span=False, metadata={"Template#": 4}) + sample1 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=1 + ) + sample2 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=2 + ) + sample3 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=3 + ) + sample4 = InputSample( + "Hi there", masked=None, spans=None, create_tags_from_span=False, template_id=4 + ) dataset = [sample1, sample2, sample3, sample4] train, test, zero = split_dataset(dataset, [0.5, 0.4999995, 0.0000005])