improve repository and added topic modeling

sjyttkl · Aug 30, 2019 · 9895ee0 · 9895ee0
1 parent f4fb57a
commit 9895ee0
Show file tree

Hide file tree

Showing 32 changed files with 1,750 additions and 243 deletions.
diff --git a/README.md b/README.md
diff --git a/embedded/5.lda2vec.ipynb → topic-model/1.lda2vec.ipynb b/embedded/5.lda2vec.ipynb → topic-model/1.lda2vec.ipynb
diff --git a/misc/5.bert-topic.ipynb → topic-model/2.bert-topic.ipynb b/misc/5.bert-topic.ipynb → topic-model/2.bert-topic.ipynb
diff --git a/embedded/utils.py → topic-model/utils.py b/embedded/utils.py → topic-model/utils.py
diff --git a/...active-summarization/1.skip-thought.ipynb → ...active-summarization/1.skip-thought.ipynb b/...active-summarization/1.skip-thought.ipynb → ...active-summarization/1.skip-thought.ipynb
diff --git a/...ve-summarization/2.residual-network.ipynb → ...ve-summarization/2.residual-network.ipynb b/...ve-summarization/2.residual-network.ipynb → ...ve-summarization/2.residual-network.ipynb
diff --git a/...ization/3.residual-network-bahdanau.ipynb → ...ization/3.residual-network-bahdanau.ipynb b/...ization/3.residual-network-bahdanau.ipynb → ...ization/3.residual-network-bahdanau.ipynb
diff --git a/extractive-summarization/README.md → ...rvised-extractive-summarization/README.md b/extractive-summarization/README.md → ...rvised-extractive-summarization/README.md
diff --git a/extractive-summarization/books/Blood_Born → ...extractive-summarization/books/Blood_Born b/extractive-summarization/books/Blood_Born → ...extractive-summarization/books/Blood_Born
diff --git a/extractive-summarization/books/Dark_Thirst → ...xtractive-summarization/books/Dark_Thirst b/extractive-summarization/books/Dark_Thirst → ...xtractive-summarization/books/Dark_Thirst
diff --git a/extractive-summarization/books/Driftas_Quest → ...ractive-summarization/books/Driftas_Quest b/extractive-summarization/books/Driftas_Quest → ...ractive-summarization/books/Driftas_Quest
diff --git a/embedded/1.cbow-softmax.ipynb → vectorizer/1.cbow-softmax.ipynb b/embedded/1.cbow-softmax.ipynb → vectorizer/1.cbow-softmax.ipynb
diff --git a/embedded/10.fast-text.ipynb → vectorizer/10.fast-text.ipynb b/embedded/10.fast-text.ipynb → vectorizer/10.fast-text.ipynb
diff --git a/embedded/11.elmo.ipynb → vectorizer/11.elmo.ipynb b/embedded/11.elmo.ipynb → vectorizer/11.elmo.ipynb
diff --git a/...dded/12.bert-batch-all-triplet-loss.ipynb → ...izer/12.bert-batch-all-triplet-loss.ipynb b/...dded/12.bert-batch-all-triplet-loss.ipynb → ...izer/12.bert-batch-all-triplet-loss.ipynb
diff --git a/embedded/2.cbow-nce.ipynb → vectorizer/2.cbow-nce.ipynb b/embedded/2.cbow-nce.ipynb → vectorizer/2.cbow-nce.ipynb
diff --git a/embedded/3.skipgram-softmax.ipynb → vectorizer/3.skipgram-softmax.ipynb b/embedded/3.skipgram-softmax.ipynb → vectorizer/3.skipgram-softmax.ipynb
diff --git a/embedded/4.skipgram-nce.ipynb → vectorizer/4.skipgram-nce.ipynb b/embedded/4.skipgram-nce.ipynb → vectorizer/4.skipgram-nce.ipynb
diff --git a/vectorizer/5.lda2vec.ipynb b/vectorizer/5.lda2vec.ipynb
diff --git a/embedded/6.supervised-embedded.ipynb → vectorizer/6.supervised-embedded.ipynb b/embedded/6.supervised-embedded.ipynb → vectorizer/6.supervised-embedded.ipynb
diff --git a/embedded/7.triplet-loss.ipynb → vectorizer/7.triplet-loss.ipynb b/embedded/7.triplet-loss.ipynb → vectorizer/7.triplet-loss.ipynb
diff --git a/embedded/8.auto-encoder.ipynb → vectorizer/8.auto-encoder.ipynb b/embedded/8.auto-encoder.ipynb → vectorizer/8.auto-encoder.ipynb
diff --git a/...atch-all-triplet-loss-lstm-embedded.ipynb → ...atch-all-triplet-loss-lstm-embedded.ipynb b/...atch-all-triplet-loss-lstm-embedded.ipynb → ...atch-all-triplet-loss-lstm-embedded.ipynb
diff --git a/embedded/README.md → vectorizer/README.md b/embedded/README.md → vectorizer/README.md
diff --git a/embedded/data/negative/negative → vectorizer/data/negative/negative b/embedded/data/negative/negative → vectorizer/data/negative/negative
diff --git a/embedded/data/positive/positive → vectorizer/data/positive/positive b/embedded/data/positive/positive → vectorizer/data/positive/positive
diff --git a/vectorizer/utils.py b/vectorizer/utils.py
@@ -0,0 +1,59 @@
+import sklearn.datasets
+import numpy as np
+import re
+import collections
+import random
+from sklearn import metrics
+from nltk.corpus import stopwords
+
+english_stopwords = stopwords.words('english')
+
+
+def clearstring(string):
+    string = re.sub('[^A-Za-z0-9 ]+', '', string)
+    string = string.split(' ')
+    string = filter(None, string)
+    string = [y.strip() for y in string if y.strip() not in english_stopwords]
+    string = ' '.join(string)
+    return string.lower()
+
+
+def separate_dataset(trainset, ratio = 0.5):
+    datastring = []
+    datatarget = []
+    for i in range(len(trainset.data)):
+        data_ = trainset.data[i].split('\n')
+        data_ = list(filter(None, data_))
+        data_ = random.sample(data_, int(len(data_) * ratio))
+        for n in range(len(data_)):
+            data_[n] = clearstring(data_[n])
+        datastring += data_
+        for n in range(len(data_)):
+            datatarget.append(trainset.target[i])
+    return datastring, datatarget
+
+
+def build_dataset(words, n_words):
+    count = [['GO', 0], ['PAD', 1], ['EOS', 2], ['UNK', 3]]
+    count.extend(collections.Counter(words).most_common(n_words - 1))
+    dictionary = dict()
+    for word, _ in count:
+        dictionary[word] = len(dictionary)
+    data = list()
+    unk_count = 0
+    for word in words:
+        index = dictionary.get(word, 0)
+        if index == 0:
+            unk_count += 1
+        data.append(index)
+    count[0][1] = unk_count
+    reversed_dictionary = dict(zip(dictionary.values(), dictionary.keys()))
+    return data, count, dictionary, reversed_dictionary
+
+
+def str_idx(corpus, dic, maxlen, UNK = 3):
+    X = np.zeros((len(corpus), maxlen))
+    for i in range(len(corpus)):
+        for no, k in enumerate(corpus[i].split()[:maxlen][::-1]):
+            X[i, -1 - no] = dic.get(k, UNK)
+    return X
diff --git a/.../1.attention-visualization-bahdanau.ipynb → .../1.attention-visualization-bahdanau.ipynb b/.../1.attention-visualization-bahdanau.ipynb → .../1.attention-visualization-bahdanau.ipynb
diff --git a/misc/2.attention-visualization-luong.ipynb → ...ion/2.attention-visualization-luong.ipynb b/misc/2.attention-visualization-luong.ipynb → ...ion/2.attention-visualization-luong.ipynb
diff --git a/misc/3.bert-attention.ipynb → visualization/3.bert-attention.ipynb b/misc/3.bert-attention.ipynb → visualization/3.bert-attention.ipynb
diff --git a/misc/4.xlnet-attention.ipynb → visualization/4.xlnet-attention.ipynb b/misc/4.xlnet-attention.ipynb → visualization/4.xlnet-attention.ipynb