Update readme

ywu94 · web-flow · commit fb00b8ce5c4a · 2020-02-04T16:39:30.000-08:00
diff --git a/README.md b/README.md
@@ -52,13 +52,13 @@ By default functions in this module consider single character as the unit for ed
 **[Levenshtein Distance & Similarity](https://en.wikipedia.org/wiki/Levenshtein_distance)**: edit with insertion, deletion, and substitution
 
 ```python
-import pytextdist
+from pytextdist.edit_distance import levenshtein_distance, levenshtein_similarity
 
 str_a = 'kitten'
 str_b = 'sitting'
-dist = pytextdist.edit_distance.levenshtein_distance(str_a,str_b)
-simi = round(pytextdist.edit_distance.levenshtein_similarity(str_a,str_b),2)
-print(f"Levenshtein Distance:{dist}\nLevenshtein Similarity:{simi}")
+dist = levenshtein_distance(str_a,str_b)
+simi = levenshtein_similarity(str_a,str_b)
+print(f"Levenshtein Distance:{dist:.0f}\nLevenshtein Similarity:{simi:.2f}")
 
 >> Levenshtein Distance:3
 >> Levenshtein Similarity:0.57
@@ -67,45 +67,135 @@ print(f"Levenshtein Distance:{dist}\nLevenshtein Similarity:{simi}")
 **[Longest Common Subsequence Distance & Similarity](https://en.wikipedia.org/wiki/Longest_common_subsequence_problem)**: edit with insertion and deletion 
 
 ```python
-import pytextdist
+from pytextdist.edit_distance import lcs_distance, lcs_similarity
 
 str_a = 'kitten'
 str_b = 'sitting'
-dist = pytextdist.edit_distance.lcs_distance(str_a,str_b)
-simi = round(pytextdist.edit_distance.lcs_similarity(str_a,str_b),2)
-print(f"LCS Distance:{dist}\nLCS Similarity:{simi}")
+dist = lcs_distance(str_a,str_b)
+simi = lcs_similarity(str_a,str_b)
+print(f"LCS Distance:{dist:.0f}\nLCS Similarity:{simi:.2f}")
 
 >> LCS Distance:5
 >> LCS Similarity:0.62
 ```
 
-
 <a id='dam_dis'></a>
-> **[Damerau-Levenshtein Distance & Similarity](https://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance)**: edit with insertion, deletion, substitution, and transposition of two adjacent units
+**[Damerau-Levenshtein Distance & Similarity](https://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance)**: edit with insertion, deletion, substitution, and transposition of two adjacent units
+
+```python
+from pytextdist.edit_distance import damerau_levenshtein_distance, damerau_levenshtein_similarity
+
+str_a = 'kitten'
+str_b = 'sitting'
+dist = damerau_levenshtein_distance(str_a,str_b)
+simi = damerau_levenshtein_similarity(str_a,str_b)
+print(f"Damerau-Levenshtein Distance:{dist:.0f}\nDamerau-Levenshtein Similarity:{simi:.2f}")
 
+>> Damerau-Levenshtein Distance:3
+>> Damerau-Levenshtein Similarity:0.57
+```
 
 <a id='ham_dis'></a>
-> **[Hamming Distance & Similarity](https://en.wikipedia.org/wiki/Hamming_distance)**: edit with substition
+**[Hamming Distance & Similarity](https://en.wikipedia.org/wiki/Hamming_distance)**: edit with substition; note that hamming metric only works for phrases of the same lengths
+
+```python
+from pytextdist.edit_distance import hamming_distance, hamming_similarity
+
+str_a = 'kittens'
+str_b = 'sitting'
+dist = hamming_distance(str_a,str_b)
+simi = hamming_similarity(str_a,str_b)
+print(f"Hamming Distance:{dist:.0f}\nHamming Similarity:{simi:.2f}")
 
+>> Hamming Distance:3
+>> Hamming Similarity:0.57
+```
 
 <a id='jaro_dis'></a>
-> **[Jaro & Jaro-Winkler Similarity](https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance)**: edit with transposition
+**[Jaro & Jaro-Winkler Similarity](https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance)**: edit with transposition
+
+```python
+from pytextdist.edit_distance import jaro_similarity, jaro_winkler_similarity
+
+str_a = 'sitten'
+str_b = 'sitting'
+simi_j = jaro_similarity(str_a,str_b)
+simi_jw = jaro_winkler_similarity(str_a,str_b)
+print(f"Jaro Similarity:{simi_j:.2f}\nJaro-Winkler Similarity:{simi_jw:.2f}")
+
+>> Jaro Similarity:0.85
+>> Jaro-Winkler Similarity:0.91
+```
 
 <a id='vec'></a>
 ### Vector Similarity
 
+By default functions in this module use unigram (single word) to build vectors and calculate similarity. You can change `n` to other numbers for n-gram (n contiguous words) vector similarity. 
+
 <a id='cos_sim'></a>
 > **[Cosine Similarity](https://en.wikipedia.org/wiki/Cosine_similarity)**
 
+```python
+from pytextdist.vector_similarity import cosine_similarity
+
+phrase_a = 'For Paperwork Reduction Act Notice, see your tax return instructions. For Paperwork Reduction Act Notice, see your tax return instructions.'
+phrase_b = 'For Disclosure, Privacy Act, and Paperwork Reduction Act Notice, see separate instructions. Form 1040'
+simi_1 = cosine_similarity(phrase_a, phrase_b, n=1)
+simi_2 = cosine_similarity(phrase_a, phrase_b, n=2)
+print(f"Unigram Cosine Similarity:{simi_1:.2f}\nBigram Cosine Similarity:{simi_2:.2f}")
+
+>> Unigram Cosine Similarity:0.65
+>> Bigram Cosine Similarity:0.38
+```
+
 <a id='jac_sim'></a>
 > **[Jaccard Similarity](https://en.wikipedia.org/wiki/Jaccard_index)**
 
+```python
+from pytextdist.vector_similarity import jaccard_similarity
+
+phrase_a = 'For Paperwork Reduction Act Notice, see your tax return instructions. For Paperwork Reduction Act Notice, see your tax return instructions.'
+phrase_b = 'For Disclosure, Privacy Act, and Paperwork Reduction Act Notice, see separate instructions. Form 1040'
+simi_1 = jaccard_similarity(phrase_a, phrase_b, n=1)
+simi_2 = jaccard_similarity(phrase_a, phrase_b, n=2)
+print(f"Unigram Jaccard Similarity:{simi_1:.2f}\nBigram Jaccard Similarity:{simi_2:.2f}")
+
+>> Unigram Jaccard Similarity:0.47
+>> Bigram Jaccard Similarity:0.22
+```
+
 <a id='sor_sim'></a>
 > **[Sorensen Dice Similarity](https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient)**
 
+```python
+from pytextdist.vector_similarity import sorensen_dice_similarity
+
+phrase_a = 'For Paperwork Reduction Act Notice, see your tax return instructions. For Paperwork Reduction Act Notice, see your tax return instructions.'
+phrase_b = 'For Disclosure, Privacy Act, and Paperwork Reduction Act Notice, see separate instructions. Form 1040'
+simi_1 = sorensen_dice_similarity(phrase_a, phrase_b, n=1)
+simi_2 = sorensen_dice_similarity(phrase_a, phrase_b, n=2)
+print(f"Unigram Sorensen Dice Similarity:{simi_1:.2f}\nBigram Sorensen Dice Similarity:{simi_2:.2f}")
+
+>> Unigram Sorensen Dice Similarity:0.64
+>> Bigram Sorensen Dice Similarity:0.36
+```
+
 <a id='qgr_sim'></a>
 > **[Q-Grams Similarity](https://www.sciencedirect.com/science/article/pii/0304397592901434)**
 
+```python
+from pytextdist.vector_similarity import qgram_similarity
+
+phrase_a = 'For Paperwork Reduction Act Notice, see your tax return instructions. For Paperwork Reduction Act Notice, see your tax return instructions.'
+phrase_b = 'For Disclosure, Privacy Act, and Paperwork Reduction Act Notice, see separate instructions. Form 1040'
+simi_1 = qgram_similarity(phrase_a, phrase_b, n=1)
+simi_2 = qgram_similarity(phrase_a, phrase_b, n=2)
+print(f"Unigram Q-Gram Similarity:{simi_1:.2f}\nBigram Q-Gram Similarity:{simi_2:.2f}")
+
+>> Unigram Q-Gram Similarity:0.32
+>> Bigram Q-Gram Similarity:0.15
+```
+
 <a id='preprocessing'></a>
 ## Customize Preprocessing