Skip to content

vanangamudi/tamil-news-classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

tamil-news-classification

Classification of tamil news headlines - experimental

Data source

The data is scraped from puthiyathalaimurai.com. The model accuracy is little over 60 percent. Though, we use only the headlines of the news. Using the article content or part of it might improve the accuracy.

The filmreviews raw data can be downloaded using dat tool

$ dat clone dat://e95e50d7deb166cf882515f67c3f9454dbeb41fb4c00983af53d5e4462c418c2 

Training

$ python main.py train

Testing

Prediction

(torch) ~/projects/text_classification/main$ head ../dataset/text.subword_nmt.txt  | python main.py predict 
Namespace(hpconfig='hpconfig.py', log_filter=None, save_plot=False, show_plot=False, task='predict')
INFO    :anikattu.utilz.initialize_tasks>> loading hyperparameters from hpconfig.py
====================================
99f4a4
====================================
INFO    :__main__.<module>s>> flushing...
INFO    :utilz   .load_datas>> processing file: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
processing ('../dataset/text.subword_nmt.txt', '../dataset/label.txt'): 10200it [00:00, 258355.73it/s]
skipped 0 samples
INFO    :utilz   .load_datas>> building input_vocabulary...
INFO    :anikattu.vocab.__init__s>> Constructiong vocabuluary object...
INFO    :anikattu.vocab.__init__s>> number of word in index2word and word2index: 667 and 667
INFO    :anikattu.vocab.__init__s>> Constructiong vocabuluary object...
INFO    :anikattu.vocab.__init__s>> number of word in index2word and word2index: 6 and 6
INFO    :anikattu.dataset.__init__s>> building dataset: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
INFO    :anikattu.dataset.__init__s>> build dataset: ('../dataset/text.subword_nmt.txt', '../dataset/label.txt')
INFO    :anikattu.dataset.__init__s>>  trainset size: 8194
INFO    :anikattu.dataset.__init__s>>  testset size: 911
INFO    :anikattu.dataset.__init__s>>  input_vocab size: 667
INFO    :anikattu.dataset.__init__s>>  output_vocab size: 6
INFO    :__main__.<module>s>> dataset size: 8194
INFO    :__main__.<module>s>> vocab: Counter({'tamilnadu': 3115,
         'india': 2263,
         'cinema': 1256,
         'sports': 1057,
         'world': 712,
         'politics': 702})
INFO    :__main__.<module>s>> loaded the old image for the model from :99f4a4/weights/main.pth
**** the model Model(
  (embed): Embedding(667, 300)
  (encode): LSTM(300, 300, bidirectional=True)
  (classify): Linear(in_features=600, out_features=6, bias=True)
)
=========== PREDICTION ==============
?“நேர்மையான கிரிக்கெட்டை விளையாட தென் இந்தியா என்னை தயார்ப்படுத்தியது” - தோனி == sports
?மேகதாது விவகாரம்: தமிழக, கர்நாடகா முதலமைச்சர்களுக்கு நிதின் கட்கரி கடிதம் == india
?உண்மை நிலை தெரியாமல் பதிலளிக்க முடியாது - நடிகர் ரஜினிகாந்த் == cinema
?“தமிழகத்தின் அனுமதி இல்லாமல் மேகதாது அணை கட்ட முடியாது”- நிதின் கட்கரி..! == india
?“பந்துவீச்சாளர்கள் ஐபிஎல் விளையாடலாமா?” - எதிரெதிர் கருத்தில் தோனி, கும்பளே  == sports
?ஜான்சன் அன்ட் ஜான்சன் பவுடரை ஆய்வு செய்ய மத்திய அரசு அறிவுறுத்தல் == india
?தமிழகத்தில் 2 தினங்களுக்கு மழைக்கு வாய்ப்பு : வானிலை மையம் தகவல் == tamilnadu
?சிறுத்தையை கூண்டு வைத்து பிடித்தாலும் பிரச்னை முடியாது ! == tamilnadu
?'நானும்தான் ஆக்சிடெண்டல் பிரைம் மினிஸ்டர்' - தேவகவுடா  == india
?“புல்லட் ரயில் இருக்கட்டும்.. இந்த ரயிலை கவனியுங்கள்” - பிரதமரை விமர்சித்த பாஜக முன்னாள் அமைச்சர் == tamilnadu

Actual labels

(torch) ~/projects/text_classification/main$ head ../dataset/label.txt 
sports
tamilnadu
politics
india
sports
india
tamilnadu
special-news
india
india

About

Classification of tamil news headlines - experimental

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages