Prompt Linting

Paper: PromptSet: A Programmer’s Prompting Dataset

Usage (quick-start):

from datasets import load_dataset

promptset = load_dataset("pisterlabs/promptset")

# iterate all prompts
for prompt_list in promptset["train"]["prompts"]:
  for prompt in prompt_list:
    pass

Organization

data: contains all the raw data collected from Github.
devGPT: contains all the processed data collected from DevGPT's Zenodo repository. Check directory for more details.
gen_prompts: contains code to process and collect prompt data.
analytics: contains code to analyze the data collected.

Reproducing Results

Download and unzip the repository snapshot as of January 10, 2024. repos.zip
Clone tree-sitter-py git clone https://github.com/tree-sitter/tree-sitter-python
Run python -m gen_prompts.find_prompts --run_id 0 --repo_dir {path_to_unzipped_repos} --threads 8, this parses all the content data to find likely prompt areas.
Run python -m gen_prompts.reader --run_id 0, here we format and clean the parsed values
Run python -m gen_prompts.upload_ds --run_id 0, this creates a PR against the pisterlabs/promptset HF repo.

Name		Name	Last commit message	Last commit date
Latest commit History 203 Commits
analytics		analytics
devGPT		devGPT
gen_prompts		gen_prompts
opro		opro
opro_gpt4o		opro_gpt4o
scrape		scrape
.gitattributes		.gitattributes
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Prompt Linting

Usage (quick-start):

Organization

Reproducing Results

About

Releases

Packages

Contributors 4

Languages

pisterlabs/promptset

Folders and files

Latest commit

History

Repository files navigation

Prompt Linting

Usage (quick-start):

Organization

Reproducing Results

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages