lancepokaiwang
diff --git a/‎python37/2.1.2 Observe_User_Value_Distribution.py
Lines changed: 89 additions & 0 deletions b/‎python37/2.1.2 Observe_User_Value_Distribution.py
Lines changed: 89 additions & 0 deletions
diff --git a/‎python37/3.1. User_Classification.py
Lines changed: 66 additions & 31 deletions b/‎python37/3.1. User_Classification.py
Lines changed: 66 additions & 31 deletions
diff --git a/‎python37/3.2. User_Classification_Silhouette_Analysis.py
Lines changed: 22 additions & 18 deletions b/‎python37/3.2. User_Classification_Silhouette_Analysis.py
Lines changed: 22 additions & 18 deletions
@@ -0,0 +1,89 @@
+import csv
+import seaborn as sns
+import matplotlib.pyplot as plt
+
+ages = []
+repo_nums = []
+follower_nums = []
+commit_comment_nums = []
+commit_nums = []
+issue_comment_nums = []
+issue_event_nums = []
+issue_numbers = []
+org_numbers = []
+pr_comment_nums = []
+pr_nums = []
+collaborator_nums = []
+
+
+
+with open('data/data_users_ready_to_analysis_2.csv', newline='') as csvfile:
+    index = 0
+    rows = csv.reader(csvfile)
+
+    for row in rows:
+        # print(row)
+        if index != 0:
+            ages.append(round(int(row[1]) / 365, 2))
+            repo_nums.append(round(int(row[2]), 3))
+            follower_nums.append(round(int(row[3]), 3))
+            commit_comment_nums.append(round(int(row[4]), 3))
+            commit_nums.append(round(int(row[5]), 3))
+            issue_comment_nums.append(round(int(row[6]), 3))
+            issue_event_nums.append(round(int(row[7]), 3))
+            issue_numbers.append(round(int(row[8]), 3))
+            org_numbers.append(round(int(row[9]), 3))
+            pr_comment_nums.append(round(int(row[10]), 3))
+            pr_nums.append(round(int(row[11]), 3))
+            collaborator_nums.append(round(int(row[12]), 3))
+        index += 1
+
+plt.hist(ages, bins=50, color='steelblue', density=True)
+plt.title("Age")
+plt.show()
+
+plt.hist(repo_nums, bins=50, color='steelblue', density=True)
+plt.title("Repo number")
+plt.show()
+
+plt.hist(follower_nums, bins=50, color='steelblue', density=True)
+plt.title("follower Number")
+plt.show()
+
+plt.hist(commit_comment_nums, bins=50, color='steelblue', density=True)
+plt.title("commit_comment Number")
+plt.show()
+
+plt.hist(commit_nums, bins=50, color='steelblue', density=True)
+plt.title("commit_nums")
+plt.show()
+
+plt.hist(issue_comment_nums, bins=50, color='steelblue', density=True)
+plt.title("issue_comment Number")
+plt.show()
+
+plt.hist(issue_event_nums, bins=50, color='steelblue', density=True)
+plt.title("issue_event Number")
+plt.show()
+
+plt.hist(issue_numbers, bins=50, color='steelblue', density=True)
+plt.title("issue Number")
+plt.show()
+
+plt.hist(org_numbers, bins=50, color='steelblue', density=True)
+plt.title("org Number")
+plt.show()
+
+plt.hist(pr_comment_nums, bins=50, color='steelblue', density=True)
+plt.title("pr_commen Number")
+plt.show()
+
+plt.hist(pr_nums, bins=50, color='steelblue', density=True)
+plt.title("pr Number")
+plt.show()
+
+plt.hist(collaborator_nums, bins=50, color='steelblue', density=True)
+plt.title("Collaborator Number")
+plt.show()
+
+
@@ -38,53 +38,65 @@
 
                 # Age
                 # row[1] = round(int(row[1]) / 365, 2)
-                row[1] = 0
+                row[1] = int(row[1]) / 365
+                if int(row[1]) != 0:
+                    row[1] = math.log(int(row[1]), 2)
 
                 # repo_num
-                # if int(row[2]) != 0:
-                #     row[2] = math.log(int(row[2]), 10)
+                if int(row[2]) != 0:
+                    row[2] = math.log(int(row[2]), 2)
 
                 # follower_num
-                if int(row[3]) != 0:
-                    row[3] = math.log(int(row[3]), 2)
+                # if int(row[3]) != 0:
+                #     row[3] = math.log(int(row[3]), 2)
+                row[3] = 0
 
                 # commit_comment_num
                 if int(row[4]) != 0:
-                    row[4] = math.log(int(row[4]), 10)
+                    row[4] = math.log(int(row[4]), 2)
 
                 # commit_num
                 if int(row[5]) != 0:
-                    row[5] = math.log(int(row[5]), 10)
+                    row[5] = math.log(int(row[5]), 2)
 
                 # issue_comment_num
                 if int(row[6]) != 0:
-                    row[6] = math.log(int(row[6]), 10)
+                    row[6] = math.log(int(row[6]), 2)
 
                 # issue_event_num
                 if int(row[7]) != 0:
-                    row[7] = math.log(int(row[7]), 10)
+                    row[7] = math.log(int(row[7]), 2)
 
                 # issue_number
                 if int(row[8]) != 0:
-                    row[8] = math.log(int(row[8]), 10)
+                    row[8] = math.log(int(row[8]), 2)
 
                 # org_number
-                # if int(row[9]) != 0:
-                #     row[9] = math.log(int(row[9]), 10)
+                if int(row[9]) != 0:
+                    row[9] = math.log(int(row[9]), 2)
 
                 # pr_comment_num
                 if int(row[10]) != 0:
-                    row[10] = math.log(int(row[10]), 10)
+                    row[10] = math.log(int(row[10]), 2)
 
                 # pr_num
                 if int(row[11]) != 0:
                     row[11] = math.log(int(row[11]), 2)
 
                 # collaborator_num
-                # if int(row[12]) != 0:
-                #     row[12] = math.log(int(row[12]), 10)
+                if int(row[12]) != 0:
+                    row[12] = math.log(int(row[12]), 2)
 
                 data.append(row[1:12])
+                # data.append(row[2:12])
+                # data.append([row[1], row[6], row[7], row[8]])
+                # data.append([row[6], row[7], row[8]])
+                # data.append([row[1], row[10], row[11]])
+                # data.append([row[10], row[11]])
+                # data.append([row[1], row[6], row[7], row[8], row[10], row[11]])
+                # data.append([row[6], row[7], row[8], row[10], row[11]])
+
+
                 data_original.append(row)
         index += 1
 
@@ -96,20 +108,21 @@
 # ----------------KMeans-----------------
 # ---------------------------------------
 # ---------------------------------------
-STOP = False
 
-while not STOP:
+best_acc = 0
+best_results = {}
 
-    kmeans = KMeans(n_clusters=CLUSTER_NUM, init='random', n_init=10, max_iter=50, tol=0.0001,
-                    precompute_distances='auto',
-                    verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm='elkan').fit(data_kmeans)
+for i in range(100):
+    kmeans = KMeans(n_clusters=CLUSTER_NUM, init='random', n_init=100, max_iter=100, tol=0.0001,
+                        precompute_distances=True,
+                        verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm='elkan').fit(data_kmeans)
 
     # print(kmeans.labels_)
     target = kmeans.labels_
 
     # print(target)
 
-    print(kmeans.cluster_centers_)
+    # print(kmeans.cluster_centers_)
 
     # save the model to disk
     filename = 'models/user_kmeans_{}c.sav'.format(CLUSTER_NUM)
@@ -123,17 +136,39 @@
             # print(data_original[i])
             # print(target[i])
             if data_original[i][0] == 1:
-                if data_original[i][0] == target[i]:
+                if 1 == target[i]:
                     results["TP"] += 1
-                elif data_original[i][0] != target[i]:
-                    results["FP"] += 1
+                elif 0 == target[i]:
+                    results["FN"] += 1
             elif data_original[i][0] == 0:
-                if data_original[i][0] == target[i]:
+                if 0 == target[i]:
                     results["TN"] += 1
-                elif data_original[i][0] != target[i]:
-                    results["FN"] += 1
-        print(results)
+                elif 1 == target[i]:
+                    results["FP"] += 1
+        # print(results)
         accuracy = ((results["TP"] + results["TN"]) / (results["TP"] + results["TN"] + results["FP"] + results["FN"]))
-        print(accuracy)
-        if accuracy > 0.55:
-            STOP = True
+        # print(accuracy)
+        if accuracy > best_acc:
+            best_acc = accuracy
+            best_results = results
+
+print(best_acc)
+print(best_results)
+
+# target = target.tolist()
+
+# Open CSV reader
+with open('data/data_users_cluster_with_results.csv', 'w', newline='') as csvfile:
+    # Create CSV writer
+    writer = csv.writer(csvfile)
+    # Write first row
+    writer.writerow(
+        ['result', 'newcomer', 'age', 'repo_num', 'follower_num', 'commit_comment_num', 'commit_num', 'issue_comment_num', 'issue_event_num', 'issue_number', 'org_number', 'pr_comment_num', 'pr_num', 'collaborator_num'])
+
+    i = 0
+    while i < len(target):
+        writer.writerow(
+            [target[i], data_original[i][0], data_original[i][1], data_original[i][2], data_original[i][3], data_original[i][4],
+             data_original[i][5], data_original[i][6], data_original[i][7],
+             data_original[i][8], data_original[i][9], data_original[i][10], data_original[i][11], data_original[i][12]])
+        i += 1
@@ -41,53 +41,56 @@
 
                 # Age
                 # row[1] = round(int(row[1]) / 365, 2)
-                row[1] = 0
+                row[1] = int(row[1]) / 365
+                if int(row[1]) != 0:
+                    row[1] = math.log(int(row[1]), 2)
 
                 # repo_num
-                # if int(row[2]) != 0:
-                #     row[2] = math.log(int(row[2]), 10)
+                if int(row[2]) != 0:
+                    row[2] = math.log(int(row[2]), 2)
 
                 # follower_num
-                if int(row[3]) != 0:
-                    row[3] = math.log(int(row[3]), 2)
+                # if int(row[3]) != 0:
+                #     row[3] = math.log(int(row[3]), 2)
+                row[3] = 0
 
                 # commit_comment_num
                 if int(row[4]) != 0:
-                    row[4] = math.log(int(row[4]), 10)
+                    row[4] = math.log(int(row[4]), 2)
 
                 # commit_num
                 if int(row[5]) != 0:
-                    row[5] = math.log(int(row[5]), 10)
+                    row[5] = math.log(int(row[5]), 2)
 
                 # issue_comment_num
                 if int(row[6]) != 0:
-                    row[6] = math.log(int(row[6]), 10)
+                    row[6] = math.log(int(row[6]), 2)
 
                 # issue_event_num
                 if int(row[7]) != 0:
-                    row[7] = math.log(int(row[7]), 10)
+                    row[7] = math.log(int(row[7]), 2)
 
                 # issue_number
                 if int(row[8]) != 0:
-                    row[8] = math.log(int(row[8]), 10)
+                    row[8] = math.log(int(row[8]), 2)
 
                 # org_number
-                # if int(row[9]) != 0:
-                #     row[9] = math.log(int(row[9]), 10)
+                if int(row[9]) != 0:
+                    row[9] = math.log(int(row[9]), 2)
 
                 # pr_comment_num
                 if int(row[10]) != 0:
-                    row[10] = math.log(int(row[10]), 10)
+                    row[10] = math.log(int(row[10]), 2)
 
                 # pr_num
                 if int(row[11]) != 0:
                     row[11] = math.log(int(row[11]), 2)
 
                 # collaborator_num
-                # if int(row[12]) != 0:
-                #     row[12] = math.log(int(row[12]), 10)
+                if int(row[12]) != 0:
+                    row[12] = math.log(int(row[12]), 2)
 
-                data.append(row[1:12])
+                data.append([row[6], row[7], row[8]])
         index += 1
 
 data_kmeans = np.array(data).astype(np.float64)
@@ -119,7 +122,7 @@
 
     # Initialize the clusterer with n_clusters value and a random generator
     # seed of 10 for reproducibility.
-    clusterer = KMeans(n_clusters=n_clusters, init='random', n_init=10, max_iter=50, tol=0.0001,
+    clusterer = KMeans(n_clusters=n_clusters, init='random', n_init=10, max_iter=10000, tol=0.0001,
                        precompute_distances='auto',
                        verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm='elkan')
     cluster_labels = clusterer.fit_predict(X)
@@ -189,5 +192,6 @@
     plt.suptitle(("Silhouette analysis for KMeans clustering on sample data "
                   "with n_clusters = %d" % n_clusters),
                  fontsize=14, fontweight='bold')
+    plt.show()
+
 
-plt.show()