code-classifier-dataset

This repo contains dataset for code classifier to be implemented in oppia-ml.

The dataset is raw and hasn't been tagged yet. These programs are extracted from answer history of euler exploration from Oppia.org.

Datasets

dataset.json: contains all the programs which were extracted from euler exploration from Oppia (~11000 programs).
syntax_dataset.json: contains all programs which are syntactically correct (7092).
compiled_dataset.json contains all programs which are getting ecompiled (7061).
execd_dataset.json: contains all programs which are getting executed and don’t raise exception during execution (63).
execd_dataset_with_classes.json: contains all programs in execd_dataset.json with feedback class assigned to them.
execd_dataset_with_classes.csv: execd_dataset_with_classes.json in CSV format.

Scripts

data_tag.py: python script to tag source programs stored in above json files.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
TestCodeClassifier		TestCodeClassifier
.gitignore		.gitignore
Adaboost.py		Adaboost.py
DecisionTree.py		DecisionTree.py
DecisionTree_N_GRAM.py		DecisionTree_N_GRAM.py
DecisionTree_TFIDF.py		DecisionTree_TFIDF.py
MLP_BOW.py		MLP_BOW.py
MultinomialNB.py		MultinomialNB.py
MultinomialNB_N_GRAM.py		MultinomialNB_N_GRAM.py
MultinomialNB_N_GRAM_PRESENCE.py		MultinomialNB_N_GRAM_PRESENCE.py
MultinomialNB_PRESENCE.py		MultinomialNB_PRESENCE.py
MultinomialNB_TFIDF.py		MultinomialNB_TFIDF.py
Multinomial_TFIDF_N_GRAM.py		Multinomial_TFIDF_N_GRAM.py
README.md		README.md
RandomForest.py		RandomForest.py
RandomForest_N_GRAM.py		RandomForest_N_GRAM.py
RandomForest_TFIDF_N_GRAM.py		RandomForest_TFIDF_N_GRAM.py
SVM_BOW.py		SVM_BOW.py
SVM_BOW_PRESENCE.py		SVM_BOW_PRESENCE.py
SVM_N_GRAM.py		SVM_N_GRAM.py
SVM_N_GRAM_PRESENCE.py		SVM_N_GRAM_PRESENCE.py
SVM_TFIDF.py		SVM_TFIDF.py
SVM_TFIDF_N_GRAM.py		SVM_TFIDF_N_GRAM.py
compiled_dataset.json		compiled_dataset.json
compiled_dataset_100-800.csv		compiled_dataset_100-800.csv
compiled_dataset_with_classes_0-100.csv		compiled_dataset_with_classes_0-100.csv
compiled_dataset_with_classes_0-100.json		compiled_dataset_with_classes_0-100.json
data_tag.py		data_tag.py
dataset.json		dataset.json
execd_dataset.json		execd_dataset.json
execd_dataset_with_classes.csv		execd_dataset_with_classes.csv
execd_dataset_with_classes.json		execd_dataset_with_classes.json
file		file
syntax_python.json		syntax_python.json
tagged_dataset.json		tagged_dataset.json
temp.csv		temp.csv
utils.py		utils.py
winnowing.py		winnowing.py
winnowing_analyzed_data.json		winnowing_analyzed_data.json
winnowing_knn.py		winnowing_knn.py
winnowing_knn_mlp.py		winnowing_knn_mlp.py
winnowing_knn_svm.py		winnowing_knn_svm.py
winnowing_svm.py		winnowing_svm.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

code-classifier-dataset

Datasets

Scripts

About

Uh oh!

Releases

Packages

Languages

prasanna08/code-classifier-dataset

Folders and files

Latest commit

History

Repository files navigation

code-classifier-dataset

Datasets

Scripts

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages