LLaSA

This is the repository for the paper "LLaSA: Large Language and Structured Data Assistant".

In this documentation, we detail how to construct pretraining datasets and train LLaSA model.

Install Requirements

Requirements:

Python 3.10
Linux
support for CUDA 12.4

pip install -r requirements.txt

If you encounter any issues during installing torch-geometric, please refer to torch-geometric for manual installation.

Pretraining

You can also download out pretraining ckpt and skip the pretraining process.

Due to the accidental deletion of the weight file, we will re-release the weights as soon as possible after retraining and validation.

Prepare pretraining datasets

# download pretraining data
git clone https://github.com/YaooXu/TaBERT.git
cd TaBERT
python -m spacy download en_core_web_sm
bash get_pretrain_data.sh

python preprocess/construct_pretrain_data.py

Pretraining

bash pretrain_gformer.sh

Training

# download and process data
python preprocess/construct_sft_data.py

# convert all data to hypergraph
python preprocess/convert_table_to_graph_hytrel.py


bash ./train_llasa.sh

Evaluation

bash ./predict.sh

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
configure		configure
construct_syn_kgqa		construct_syn_kgqa
data/downloads/extracted/kvret		data/downloads/extracted/kvret
dataset		dataset
metrics		metrics
models		models
preprocess		preprocess
prompts		prompts
tasks		tasks
third_party		third_party
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
ds_zero0.json		ds_zero0.json
ds_zero2.json		ds_zero2.json
ds_zero3.json		ds_zero3.json
eval.py		eval.py
eval_json.py		eval_json.py
mistral-fix-data.py		mistral-fix-data.py
predict.sh		predict.sh
pretrain_gformer.sh		pretrain_gformer.sh
pretrain_llm_based_gnn.sh		pretrain_llm_based_gnn.sh
requirements.txt		requirements.txt
requirements2		requirements2
run_test_eval.sh		run_test_eval.sh
train_llasa.sh		train_llasa.sh
train_sqformer.py		train_sqformer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

LLaSA

Install Requirements

Pretraining

Prepare pretraining datasets

Pretraining

Training

Evaluation

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

YaooXu/LLaSA

Folders and files

Latest commit

History

Repository files navigation

LLaSA

Install Requirements

Pretraining

Prepare pretraining datasets

Pretraining

Training

Evaluation

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages