tamil-news-classification

Classification of tamil news headlines - experimental

Data source

The data is scraped from puthiyathalaimurai.com. The model accuracy is little over 60 percent. Though, we use only the headlines of the news. Using the article content or part of it might improve the accuracy.

The filmreviews raw data can be downloaded using dat tool

$ dat clone dat://e95e50d7deb166cf882515f67c3f9454dbeb41fb4c00983af53d5e4462c418c2

Training

$ python main.py train

Testing

Prediction

(torch) ~/projects/text_classification/main$ head ../dataset/text.subword_nmt.txt  | python main.py predict 
Namespace(hpconfig='hpconfig.py', log_filter=None, save_plot=False, show_plot=False, task='predict')
INFO    :anikattu.utilz.initialize_tasks>> loading hyperparameters from hpconfig.py
====================================
99f4a4
====================================
INFO    :__main__.<module>s>> flushing...
INFO    :utilz   .load_datas>> processing file: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
processing ('../dataset/text.subword_nmt.txt', '../dataset/label.txt'): 10200it [00:00, 258355.73it/s]
skipped 0 samples
INFO    :utilz   .load_datas>> building input_vocabulary...
INFO    :anikattu.vocab.__init__s>> Constructiong vocabuluary object...
INFO    :anikattu.vocab.__init__s>> number of word in index2word and word2index: 667 and 667
INFO    :anikattu.vocab.__init__s>> Constructiong vocabuluary object...
INFO    :anikattu.vocab.__init__s>> number of word in index2word and word2index: 6 and 6
INFO    :anikattu.dataset.__init__s>> building dataset: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
INFO    :anikattu.dataset.__init__s>> build dataset: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
INFO    :anikattu.dataset.__init__s>>  trainset size: 8194
INFO    :anikattu.dataset.__init__s>>  testset size: 911
INFO    :anikattu.dataset.__init__s>>  input_vocab size: 667
INFO    :anikattu.dataset.__init__s>>  output_vocab size: 6
INFO    :__main__.<module>s>> dataset size: 8194
INFO    :__main__.<module>s>> vocab: Counter({'tamilnadu': 3115,
         'india': 2263,
         'cinema': 1256,
         'sports': 1057,
         'world': 712,
         'politics': 702})
INFO    :__main__.<module>s>> loaded the old image for the model from :99f4a4/weights/main.pth
**** the model Model(
  (embed): Embedding(667, 300)
  (encode): LSTM(300, 300, bidirectional=True)
  (classify): Linear(in_features=600, out_features=6, bias=True)
)
=========== PREDICTION ==============
?“நேர்மையான கிரிக்கெட்டை விளையாட தென் இந்தியா என்னை தயார்ப்படுத்தியது” - தோனி == sports
?மேகதாது விவகாரம்: தமிழக, கர்நாடகா முதலமைச்சர்களுக்கு நிதின் கட்கரி கடிதம் == india
?உண்மை நிலை தெரியாமல் பதிலளிக்க முடியாது - நடிகர் ரஜினிகாந்த் == cinema
?“தமிழகத்தின் அனுமதி இல்லாமல் மேகதாது அணை கட்ட முடியாது”- நிதின் கட்கரி..! == india
?“பந்துவீச்சாளர்கள் ஐபிஎல் விளையாடலாமா?” - எதிரெதிர் கருத்தில் தோனி, கும்பளே  == sports
?ஜான்சன் அன்ட் ஜான்சன் பவுடரை ஆய்வு செய்ய மத்திய அரசு அறிவுறுத்தல் == india
?தமிழகத்தில் 2 தினங்களுக்கு மழைக்கு வாய்ப்பு : வானிலை மையம் தகவல் == tamilnadu
?சிறுத்தையை கூண்டு வைத்து பிடித்தாலும் பிரச்னை முடியாது ! == tamilnadu
?'நானும்தான் ஆக்சிடெண்டல் பிரைம் மினிஸ்டர்' - தேவகவுடா  == india
?“புல்லட் ரயில் இருக்கட்டும்.. இந்த ரயிலை கவனியுங்கள்” - பிரதமரை விமர்சித்த பாஜக முன்னாள் அமைச்சர் == tamilnadu

Actual labels

(torch) ~/projects/text_classification/main$ head ../dataset/label.txt 
sports
tamilnadu
politics
india
sports
india
tamilnadu
special-news
india
india

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
anikattu		anikattu
dataset		dataset
main		main
model		model
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
utilz.py		utilz.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tamil-news-classification

Data source

Training

Testing

Prediction

Actual labels

About

Releases

Packages

Languages

License

vanangamudi/tamil-news-classification

Folders and files

Latest commit

History

Repository files navigation

tamil-news-classification

Data source

Training

Testing

Prediction

Actual labels

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages