Update preprocess.py

LIMSCODE · web-flow · commit 272d2699583d · 2024-02-11T16:56:42.000+09:00
diff --git a/6.CHATBOT/preprocess.py b/6.CHATBOT/preprocess.py
@@ -1,19 +1,24 @@
-import os
-import re
+# 1. preprocess.py :데이터불러오고가공
+# 2. Preprocess.ipynb :사전구성과 학습에사용될데이터로 구성
+# 3. seq2seq.ipynb :모델구성과 학습,평가,실행 할수있는파일
+
+
+import os  # 운영체제기능사용
+import re  # 정규표현식사용
 import json
 
 import numpy as np
 import pandas as pd
 from tqdm import tqdm
 
-from konlpy.tag import Okt
+from konlpy.tag import Okt  # 한글형태소활용
 
 
 FILTERS = "([~.,!?\"':;)(])"
-PAD = "<PAD>"
-STD = "<SOS>"
-END = "<END>"
-UNK = "<UNK>"
+PAD = "<PAD>" # 아무의미없는 패딩토큰
+STD = "<SOS>" # 시작토큰의미
+END = "<END>" # 종료토큰의미
+UNK = "<UNK>" # 사전에없는단어를의미
 
 PAD_INDEX = 0
 STD_INDEX = 1
@@ -25,112 +30,88 @@
 
 MAX_SEQUENCE = 25
 
-
-def load_data(path):
-    # 판다스를 통해서 데이터를 불러온다.
-    data_df = pd.read_csv(path, header=0)
-    # 질문과 답변 열을 가져와 question과 answer에 넣는다.
-    question, answer = list(data_df['Q']), list(data_df['A'])
-
+ # 1데이터를 판다스를통해 불러와서 데이터프레임형태로만듬 /question,answer반환
+def load_data(path): 
+    data_df = pd.read_csv(path, header=0) 
+    question, answer = list(data_df['Q']), list(data_df['A']) 
     return question, answer
 
-
+ # 2데이터를 단어리스트로만듬
 def data_tokenizer(data):
     # 토크나이징 해서 담을 배열 생성
     words = []
     for sentence in data:
         # FILTERS = "([~.,!?\"':;)(])"
-        # 위 필터와 같은 값들을 정규화 표현식을
-        # 통해서 모두 "" 으로 변환 해주는 부분이다.
-        sentence = re.sub(CHANGE_FILTER, "", sentence)
+        # 위 필터와 같은 값들을 정규화 표현식을 통해서 모두 "" 으로 변환 해주는 부분이다.
+        sentence = re.sub(CHANGE_FILTER, "", sentence) # 정규표현식을사용해 특수기호제거, 공백문자기준으로 단어를나눠 전체데이터의 모든단어를 포함하는 단어리스트로 만듬
         for word in sentence.split():
             words.append(word)
-    # 토그나이징과 정규표현식을 통해 만들어진
-    # 값들을 넘겨 준다.
+    # 토그나이징과 정규표현식을 통해 만들어진값들을 넘겨 준다.
     return [word for word in words if word]
 
-
+ # 3텍스트를 형태소로 분리
 def prepro_like_morphlized(data):
     morph_analyzer = Okt()
     result_data = list()
     for seq in tqdm(data):
         morphlized_seq = " ".join(morph_analyzer.morphs(seq.replace(' ', '')))
         result_data.append(morphlized_seq)
-
     return result_data
 
-
-def load_vocabulary(path, vocab_path, tokenize_as_morph=False):
-    # 사전을 담을 배열 준비한다.
-    vocabulary_list = []
-    # 사전을 구성한 후 파일로 저장 진행한다.
-    # 그 파일의 존재 유무를 확인한다.
-    if not os.path.exists(vocab_path):
-        # 이미 생성된 사전 파일이 존재하지 않으므로
-        # 데이터를 가지고 만들어야 한다.
-        # 그래서 데이터가 존재 하면 사전을 만들기 위해서
-        # 데이터 파일의 존재 유무를 확인한다.
-        if (os.path.exists(path)):
-            # 데이터가 존재하니 판단스를 통해서
-            # 데이터를 불러오자
+ # 4단어사전을 만드는함수
+def load_vocabulary(path, vocab_path, tokenize_as_morph=False): 
+    vocabulary_list = [] # 사전을담을배열 
+    
+    # 사전을 구성한 후 파일로 저장 진행한다. 
+    if not os.path.exists(vocab_path):  # 이미생성된 사전파일이 존재하지않음. 데이터를가지고 만든다. 데이터존재시 사전만듬 
+        if (os.path.exists(path)):  # 데이터존재함. 판다스로 데이터불러옴 
             data_df = pd.read_csv(path, encoding='utf-8')
-            # 판다스의 데이터 프레임을 통해서
-            # 질문과 답에 대한 열을 가져 온다.
+            
+            # 판다스의 데이터 프레임을통해서 질문과 답에 대한 열을 가져 온다.
             question, answer = list(data_df['Q']), list(data_df['A'])
-            if tokenize_as_morph:  # 형태소에 따른 토크나이져 처리
-                question = prepro_like_morphlized(question)
-                answer = prepro_like_morphlized(answer)
+            if tokenize_as_morph:  # 형태소에따른 토크나이져 처리
+                question = prepro_like_morphlized(question) # 텍스트를형태소로분리(앞의함수)
+                answer = prepro_like_morphlized(answer) # 텍스트를형태소로분리(앞의함수)
+                
             data = []
-            # 질문과 답변을 extend을
-            # 통해서 구조가 없는 배열로 만든다.
-            data.extend(question)
-            data.extend(answer)
-            # 토큰나이져 처리 하는 부분이다.
-            words = data_tokenizer(data)
-            # 공통적인 단어에 대해서는 모두
-            # 필요 없으므로 한개로 만들어 주기 위해서
-            # set해주고 이것들을 리스트로 만들어 준다.
-            words = list(set(words))
-            # 데이터 없는 내용중에 MARKER를 사전에
-            # 추가 하기 위해서 아래와 같이 처리 한다.
-            # 아래는 MARKER 값이며 리스트의 첫번째 부터
-            # 순서대로 넣기 위해서 인덱스 0에 추가한다.
-            # PAD = "<PADDING>"
+            # 질문과 답변을 extend을 통해서 구조가 없는 배열로 만든다.
+            data.extend(question)  
+            data.extend(answer) 
+            words = data_tokenizer(data) # 데이터를단어리스트로만듬(앞의함수)
+            words = list(set(words)) # 공통적인 단어에 대해서 한개로 만들어 주기 위해서 set해주고 이것들을 리스트로 만들어 준다. 
+            # PAD = "<PADDING>"   # 데이터 없는 내용중에 MARKER를 사전에 추가 하기 위해서 아래와 같이 처리 한다.
             # STD = "<START>"
             # END = "<END>"
             # UNK = "<UNKNWON>"
-            words[:0] = MARKER
-        # 사전을 리스트로 만들었으니 이 내용을
-        # 사전 파일을 만들어 넣는다.
+            words[:0] = MARKER  # 아래는 MARKER 값이며 리스트의 첫번째부터 순서대로 넣기 위해서 인덱스 0에 추가한다.
+            
+        # 사전을 리스트로 만들었으니 이 내용을 사전 파일을 만들어 넣는다.
         with open(vocab_path, 'w', encoding='utf-8') as vocabulary_file:
             for word in words:
                 vocabulary_file.write(word + '\n')
 
-    # 사전 파일이 존재하면 여기에서
-    # 그 파일을 불러서 배열에 넣어 준다.
+    # 사전 파일이 존재하면 여기에서 그 파일을 불러서 배열에 넣어 준다.
     with open(vocab_path, 'r', encoding='utf-8') as vocabulary_file:
         for line in vocabulary_file:
             vocabulary_list.append(line.strip())
 
-    # 배열에 내용을 키와 값이 있는
-    # 딕셔너리 구조로 만든다.
+    # 배열에 내용을 키와 값이 있는 딕셔너리 구조로 만든다.
     char2idx, idx2char = make_vocabulary(vocabulary_list)
-    # 두가지 형태의 키와 값이 있는 형태를 리턴한다.
-    # (예) 단어: 인덱스 , 인덱스: 단어)
+    # 두가지 형태의 키와 값이 있는 형태를 리턴한다. (예) 단어: 인덱스 , 인덱스: 단어)
     return char2idx, idx2char, len(char2idx)
 
 
-def make_vocabulary(vocabulary_list):
-    # 리스트를 키가 단어이고 값이 인덱스인
-    # 딕셔너리를 만든다.
+# 5단어리스트를 인자로 두개의 딕셔너리를만듬
+def make_vocabulary(vocabulary_list): 
+    # vocabulary_list에 [안녕,너는,누구야] 들어있다면 word2idx에는 key가 안녕,너는,누구야/value는 0,1,2 이고, idx2word는 key,value가반대이다.
+    # 리스트를 키가 단어이고 값이 인덱스인 딕셔너리를 만든다.
     char2idx = {char: idx for idx, char in enumerate(vocabulary_list)}
-    # 리스트를 키가 인덱스이고 값이 단어인
-    # 딕셔너리를 만든다.
+    # 리스트를 키가 인덱스이고 값이 단어인 딕셔너리를 만든다.
     idx2char = {idx: char for idx, char in enumerate(vocabulary_list)}
     # 두개의 딕셔너리를 넘겨 준다.
     return char2idx, idx2char
 
-
+ # 6인코더적용 입력값 만듬
 def enc_processing(value, dictionary, tokenize_as_morph=False):
     # 인덱스 값들을 가지고 있는
     # 배열이다.(누적된다.)
@@ -180,7 +161,7 @@ def enc_processing(value, dictionary, tokenize_as_morph=False):
     # 그 길이를 넘겨준다.
     return np.asarray(sequences_input_index), sequences_length
 
-
+# 7디코더의 입력값을 만드는함수
 def dec_output_processing(value, dictionary, tokenize_as_morph=False):
     # 인덱스 값들을 가지고 있는
     # 배열이다.(누적된다)
@@ -222,22 +203,19 @@ def dec_output_processing(value, dictionary, tokenize_as_morph=False):
     # 넘파이 배열에 인덱스화된 배열과 그 길이를 넘겨준다.
     return np.asarray(sequences_output_index), sequences_length
 
-
+# 8디코더의 타깃값을 만드는 전처리함수
 def dec_target_processing(value, dictionary, tokenize_as_morph=False):
-    # 인덱스 값들을 가지고 있는
-    # 배열이다.(누적된다)
+    # 인덱스 값들을 가지고 있는 배열이다.(누적된다)
     sequences_target_index = []
     # 형태소 토크나이징 사용 유무
     if tokenize_as_morph:
         value = prepro_like_morphlized(value)
     # 한줄씩 불어온다.
     for sequence in value:
         # FILTERS = "([~.,!?\"':;)(])"
-        # 정규화를 사용하여 필터에 들어 있는
-        # 값들을 "" 으로 치환 한다.
+        # 정규화를 사용하여 필터에 들어 있는값들을 "" 으로 치환 한다.
         sequence = re.sub(CHANGE_FILTER, "", sequence)
-        # 문장에서 스페이스 단위별로 단어를 가져와서
-        # 딕셔너리의 값인 인덱스를 넣어 준다.
+        # 문장에서 스페이스 단위별로 단어를 가져와서 딕셔너리의 값인 인덱스를 넣어 준다.
         # 디코딩 출력의 마지막에 END를 넣어 준다.
         sequence_index = [dictionary[word] if word in dictionary else dictionary[UNK] for word in sequence.split()]
         # 문장 제한 길이보다 길어질 경우 뒤에 토큰을 자르고 있다.