LLM_from_scratch

Prerequisites:

Python 3.10.6
Nvidia GPU

Setup:

Create venv

py -3.10 -m venv cuda

Activate venv

cuda activate

Install libs

pip install matplotlib numpy pylzma ipkernel jupyter
pip install torch --index-url https://download.pytorch.org/whl/cu118

Install a new kernel for Jupyter Notebook

python -m ipykernel install --user --name=cuda --display-name "cuda-gpt"

Start Jupyter Notebook

jupyter notebook

Project.2.mp4

🏗️ How to Reproduce / Extend

Download & Prepare Dataset
- Download OpenWebText2 (~27 GB) from https://openwebtext2.readthedocs.io/en/latest/ and unpack all .jsonl.zst files into ./openwebtext2/.
Extract & Tokenize Data
- Open and run data-extract-v10.ipynb, which:
  - Streams and decompresses the .zst files.
  - Filters for English-language texts.
  - Tokenizes using tiktoken tokenizer.
  - Outputs output_v10/encoded_data/encoded_output_v10_accuracy.npy (~107 GB).
Train Base GPT Model
- Run gpt-v14.ipynb end-to-end to:
  - Configure hyperparameters (depth, heads, learning rate schedule, etc.).
  - Execute the training loop, logging train/validation losses.
  - Save the checkpoint (e.g., output_v14\pre_training\run_<unix_timestamp>/gpt_v14_model.pt).
Fine-Tune for Classification
- Use finetuning-classification-v1.ipynb to adapt the pre-trained checkpoint for a binary classification task (e.g., spam vs. ham).
Fine-Tune for Instruction-Following
- Use finetuning-instruction-answer-v4.ipynb to train on instruction–response pairs and improve the model’s conversational ability.
Evaluate Fine-Tuned Models
- Open evaluate-finetuned-llm.ipynb to:
  - Compute performance metrics (accuracy, loss) on held-out data.
  - Compare your fine-tuned outputs against the Ollama LLaMA 3.2 3B reference baseline.

📈 Example Results

Sample generation from gpt-v14.ipynb after 17 epochs:

Prompt: "I like apple juice - I drink it"
→ "I like apple juice - I drink it for about 30 minutes or even 1/20 minutes. In fact it was so common, so if it would be melted and the calories for me. And for me it was a pretty cool product"

🚧 Next Steps

🎛️ Wrap notebooks into CLI scripts (train.py, generate.py).

🌐 Build a small Gradio/Streamlit demo for live inference.

📊 Integrate Weights & Biases or TensorBoard for experiment tracking.

🇵🇱 Experiment with Polish-language fine-tuning on local corpora.

Name		Name	Last commit message	Last commit date
Latest commit History 109 Commits
Vizuara		Vizuara
custom_bpe_tokenizer		custom_bpe_tokenizer
.gitignore		.gitignore
README.md		README.md
bigram.ipynb		bigram.ipynb
custom_tokenizer.json		custom_tokenizer.json
data-extract-v10.ipynb		data-extract-v10.ipynb
data-extract-v3.ipynb		data-extract-v3.ipynb
data-extract-v5.ipynb		data-extract-v5.ipynb
data-extract-v6.ipynb		data-extract-v6.ipynb
data-extract-v7.ipynb		data-extract-v7.ipynb
data-extract.ipynb		data-extract.ipynb
deepseek-v1.ipynb		deepseek-v1.ipynb
deepseek-v2.ipynb		deepseek-v2.ipynb
deepseek-v3.ipynb		deepseek-v3.ipynb
evaluate-finetuned-llm.ipynb		evaluate-finetuned-llm.ipynb
finetuning-classification-v1.ipynb		finetuning-classification-v1.ipynb
finetuning-instruction-answer-v1.ipynb		finetuning-instruction-answer-v1.ipynb
finetuning-instruction-answer-v2.ipynb		finetuning-instruction-answer-v2.ipynb
finetuning-instruction-answer-v3.ipynb		finetuning-instruction-answer-v3.ipynb
gpt-v1.ipynb		gpt-v1.ipynb
gpt-v10.ipynb		gpt-v10.ipynb
gpt-v11.ipynb		gpt-v11.ipynb
gpt-v12.ipynb		gpt-v12.ipynb
gpt-v13.ipynb		gpt-v13.ipynb
gpt-v14.ipynb		gpt-v14.ipynb
gpt-v15.ipynb		gpt-v15.ipynb
gpt-v2.ipynb		gpt-v2.ipynb
gpt-v3.ipynb		gpt-v3.ipynb
gpt-v4.ipynb		gpt-v4.ipynb
gpt-v5.ipynb		gpt-v5.ipynb
gpt-v6.ipynb		gpt-v6.ipynb
gpt-v7.ipynb		gpt-v7.ipynb
gpt-v8.ipynb		gpt-v8.ipynb
gpt-v9.ipynb		gpt-v9.ipynb
requirements.txt		requirements.txt
tokenizer_test.ipynb		tokenizer_test.ipynb
vector_embedding_test.ipynb		vector_embedding_test.ipynb
vocab.txt		vocab.txt
wizard_of_oz.txt		wizard_of_oz.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

LLM_from_scratch

Prerequisites:

Setup:

🏗️ How to Reproduce / Extend

📈 Example Results

🚧 Next Steps

About

Uh oh!

Releases

Packages

Uh oh!

Languages

dawmro/LLM_from_scratch

Folders and files

Latest commit

History

Repository files navigation

LLM_from_scratch

Prerequisites:

Setup:

🏗️ How to Reproduce / Extend

📈 Example Results

🚧 Next Steps

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages