மயல் is a computational linguistics tool for analysing the frequency patterns of biconsonantal clusters (மெய் + மெய் / consonant + consonant sequences) in classical Tamil texts from the Sangam period.
This research has resulted in two peer-reviewed publications:
"Pattern of Biconsonantal Clusters in Old Tamil Texts"
International Journal of Dravidian Linguistics (IJDL), January 2025
"பழந்தமிழ் இலக்கியத்தில் மெய்ம்மயக்கத்தின் பாங்கு"
பன்னாட்டுக் கணித்தமிழ்த் தகவல் தொழில்நுட்ப மாநாடு (ICTCIT) 2024
International Conference on Tamil Computing and Information Technology
If you use this tool or build upon this research, please cite our publications:
@article{venkatakrishnan2025biconsonantal,
title={Pattern of Biconsonantal Clusters in Old Tamil Texts},
author={Venkatakrishnan, Ramprashanth and Kumarasamy, R. and Lakshmanan, Balasundararaman},
journal={International Journal of Dravidian Linguistics},
year={2025},
month={January}
}
@inproceedings{venkatakrishnan2024meymayakkam,
title={பழந்தமிழ் இலக்கியத்தில் மெய்ம்மயக்கத்தின் பாங்கு},
author={Venkatakrishnan, Ramprashanth and Lakshmanan, Balasundararaman},
booktitle={Proceedings of the International Conference on Tamil Computing and Information Technology (ICTCIT)},
year={2024}
}| Name | Affiliation |
|---|---|
| இராம்பிரசாந்த் வெங்கடக்கிருஷ்ணன் (Ramprashanth Venkatakrishnan) | மதுரை காமராசர் பல்கலைக்கழகம் (Madurai Kamaraj University), India |
| R. Kumarasamy | மதுரை காமராசர் பல்கலைக்கழகம் (Madurai Kamaraj University), India |
| பாலசுந்தரராமன் இலக்குவன் (Balasundararaman Lakshmanan) | Indeed Japan, Tokyo |
This project computes and visualises the frequency of biconsonantal clusters in Sangam literature—the oldest extant literature of Old Tamil. The analysis covers:
| Tamil | ISO 15919 |
|---|---|
| ஐங்குறுநூறு | Aiṅkuṟunūṟu |
| அகநானூறு | Akanāṉūṟu |
| கலித்தொகை | Kalittokai |
| குறுந்தொகை | Kuṟuntokai |
| நற்றிணை | Naṟṟiṇai |
| பரிபாடல் | Paripāṭal |
| பதிற்றுப்பத்து | Patiṟṟuppattu |
| புறநானூறு | Puṟanāṉūṟu |
| Tamil | ISO 15919 |
|---|---|
| திருமுருகாற்றுப்படை | Tirumurukāṟṟuppaṭai |
| பொருநராற்றுப்படை | Porunārāṟṟuppaṭai |
| சிறுபாணாற்றுப்படை | Ciṟupāṇāṟṟuppaṭai |
| பெரும்பாணாற்றுப்படை | Perumpāṇāṟṟuppaṭai |
| முல்லைப்பாட்டு | Mullaippāṭṭu |
| மதுரைக்காஞ்சி | Maturaikkāñci |
| நெடுநல்வாடை | Neṭunalvāṭai |
| குறிஞ்சிப்பாட்டு | Kuṟiñcippāṭṭu |
| பட்டினப்பாலை | Paṭṭiṉappālai |
| மலைபடுகடாம் | Malaipaṭukaṭām |
The study uses two text processing modes to handle word boundaries:
| Mode | Tamil | Description |
|---|---|---|
| யாப்பு (Metrical) | Yāppu | Treats text as continuous metrical verse |
| சொற்பிரிப்பு (Word-separated) | Coṟpirippu | Respects word boundaries |
This produces four estimation types based on whether whitespace is removed ("merged") or preserved:
| Type | Mode | Whitespace | Effect |
|---|---|---|---|
| Type 1 | யாப்பு | Preserved | Underestimation |
| Type 2 | யாப்பு | Removed (merged) | Overestimation |
| Type 3 | சொற்பிரிப்பு | Preserved | Underestimation |
| Type 4 | சொற்பிரிப்பு | Removed (merged) | Overestimation |
The mean of Types 2 and 3 represents the best estimate for cluster frequencies.
Clusters are classified based on consonant types:
- Plosives (P): க், ச், ட், த், ப், ற்
- Nasals (N): ங், ஞ், ண், ந், ம், ன்
- Approximants (A): ய், ர், ல், வ், ழ், ள்
The tool generates:
- Frequency matrices (18×18 consonant co-occurrence tables)
- Maximum Likelihood Estimation (row-wise and column-wise probabilities)
- Pie charts showing distribution of cluster types (PP, PN, NP, NN, etc.)
- CSV exports for further analysis
pip install -r requirements.txt- Python 3.x
- NLTK
- Pandas
- Matplotlib
- dataframe-image
python mayal.pyOutput files are generated in the out/ directory, organised by estimation type and text collection.
mayal/
├── mayal.py # Main analysis script
├── corpora/
│ ├── யாப்பு/ # Metrical text versions
│ │ ├── எட்டுத்தொகை/
│ │ └── பத்துப்பாட்டு/
│ └── சொற்பிரிப்பு/ # Word-separated versions
│ ├── எட்டுத்தொகை/
│ └── பத்துப்பாட்டு/
├── out/ # Generated analysis outputs
├── publications/ # Published papers (PDF)
└── requirements.txt
See LICENSE for details.