أداة متقدمة لتحليل التراكيب اللغوية العربية باستخدام المقاييس الإحصائية (PMI, T-Score, Log-Likelihood) مع واجهة تفاعلية متقدمة.
- تحليل إحصائي متقدم: حساب PMI، T-Score، Log-Likelihood للتراكيب
- واجهة تفاعلية متقدمة: خريطة حرارية، رسوم ثلاثية الأبعاد، مخطط Chord
- حفظ السياقات النصية: عرض أمثلة سياقية لكل تركيب
- تصدير متعدد الصيغ: Excel و JSON
- إحصائيات مفصلة: تحليل شامل للملفات والتراكيب
- فلترة ديناميكية: تصفية وترتيب النتائج حسب معايير متعددة
- Python 3.7 أو أحدث
- pandas
- openpyxl
- استنسخ المستودع:
git clone https://github.com/ayzem88/syntactic-selector.git
cd syntactic-selector- ثبت المتطلبات:
pip install -r requirements.txt-
ملاحظة مهمة: البرنامج يحتاج ملفات نصية في مجلد
المدونة/للتحليل. هذه الملفات كبيرة ولم يتم رفعها على GitHub.الحلول:
- أضف ملفات
.txtالخاصة بك في مجلدالمدونة/ - البرنامج سيعمل مع أي ملفات نصية تضيفها
- ملف
stop_words.txtموجود ومرفوع
- أضف ملفات
python "0.2 المختار التركيبي.py"أو النسخة المحسنة:
python "كشكول/المختار_التركيبي_المحسن_مختصر.py"- افتح ملف
02. المختار التركيبي التفاعلي.htmlفي المتصفح - أو استخدم خادم محلي:
python -m http.server 8000
# ثم افتح http://localhost:8000/02.%20المختار%20التركيبي%20التفاعلي.html- اختر ملف
البيانات_التفاعلية.jsonالمُنشأ - أو استخدم "تحميل بيانات تجريبية" للعرض
0.2 المختار التركيبي.py: السكربت الرئيسي02. المختار التركيبي التفاعلي.html: الواجهة التفاعليةالبيانات_التفاعلية.json: ملف البيانات المُصدّرالمركبات_المحسنة.xlsx: ملف Excel مع النتائجstop_words.txt: ملف كلمات الإيقافالمدونة/: مجلد ملفات النصوص للتحليل
تُظهر توزيع التراكيب عبر الملفات مع تمييز الألوان حسب الكثافة.
عرض المقاييس الإحصائية (PMI, T-Score, Log-Likelihood) في فضاء ثلاثي الأبعاد.
يربط التراكيب المتشابهة مع تمييز قوة الارتباط.
تُظهر منطق الترجيح وتقسيم المعايير.
جميع البيانات مع إمكانية الفلترة والترتيب.
- الفلترة: تصفية حسب نوع الترجيح
- الترتيب: حسب PMI، التكرار، الانتشار، التنوع السياقي
- عرض السياقات: انقر على "عرض السياقات" لرؤية النماذج النصية
- الإحصائيات: تحديث فوري مع الفلترة
- 445,208 تركيبة تم تحليلها
- 113,095 كلمة مفردة
- 18 ملف نصي
- 5 سياقات محفوظة لكل تركيب
# تثبيت متطلبات التطوير
pip install -r requirements-dev.txt
# تشغيل الاختبارات
python -m pytest tests/نرحب بمساهماتكم! راجع دليل المساهمة للتفاصيل.
هذا المشروع مرخص تحت MIT License - راجع ملف LICENSE للتفاصيل.
تم تطوير هذا المشروع بواسطة أيمن الطيّب بن نجي (ayzem88)
للاستفسارات أو المساهمة، يمكنك التواصل معي عبر:
- البريد الإلكتروني: aymen.nji@gmail.com
- إضافة مقارنة مع corpus مرجعي
- شريط زمني تفاعلي
- تصدير التقارير بصيغ مختلفة
- دعم لغات إضافية
- واجهة سطر الأوامر (CLI)
An advanced tool for analyzing Arabic linguistic structures using statistical measures (PMI, T-Score, Log-Likelihood) with an advanced interactive interface.
- Advanced Statistical Analysis: Calculate PMI, T-Score, Log-Likelihood for structures
- Advanced Interactive Interface: Heatmap, 3D plots, Chord diagram
- Context Preservation: Display contextual examples for each structure
- Multiple Export Formats: Excel and JSON
- Detailed Statistics: Comprehensive analysis of files and structures
- Dynamic Filtering: Filter and sort results by multiple criteria
- Python 3.7 or later
- pandas
- openpyxl
- Clone the repository:
git clone https://github.com/ayzem88/syntactic-selector.git
cd syntactic-selector- Install requirements:
pip install -r requirements.txt-
Important Note: The program needs text files in the
المدونة/folder for analysis. These files are large and were not uploaded to GitHub.Solutions:
- Add your own
.txtfiles in theالمدونة/folder - The program will work with any text files you add
- The
stop_words.txtfile is included and uploaded
- Add your own
python "0.2 المختار التركيبي.py"Or the enhanced version:
python "كشكول/المختار_التركيبي_المحسن_مختصر.py"- Open the
02. المختار التركيبي التفاعلي.htmlfile in your browser - Or use a local server:
python -m http.server 8000
# Then open http://localhost:8000/02.%20المختار%20التركيبي%20التفاعلي.html- Choose the generated
البيانات_التفاعلية.jsonfile - Or use "Load sample data" for display
0.2 المختار التركيبي.py: Main script02. المختار التركيبي التفاعلي.html: Interactive interfaceالبيانات_التفاعلية.json: Exported data fileالمركبات_المحسنة.xlsx: Excel file with resultsstop_words.txt: Stop words fileالمدونة/: Folder for text files to analyze
Shows the distribution of structures across files with color coding by density.
Displays statistical measures (PMI, T-Score, Log-Likelihood) in 3D space.
Links similar structures with connection strength indication.
Shows weighting logic and criteria division.
All data with filtering and sorting capabilities.
- Filtering: Filter by weighting type
- Sorting: By PMI, frequency, spread, contextual diversity
- Context Display: Click "Show contexts" to see text examples
- Statistics: Real-time updates with filtering
- 445,208 structures analyzed
- 113,095 unique words
- 18 text files
- 5 contexts saved per structure
# Install development requirements
pip install -r requirements-dev.txt
# Run tests
python -m pytest tests/We welcome contributions! See Contributing Guide for details.
This project is licensed under MIT License - see the LICENSE file for details.
Developed by Ayman Al-Tayyib Ben Naji (ayzem88)
For inquiries or contributions, you can contact me via:
- Email: aymen.nji@gmail.com
- Add comparison with reference corpus
- Interactive timeline
- Export reports in different formats
- Support for additional languages
- Command-line interface (CLI)


