Taha Zerrouki (طه زروقي )
Taha Zerrouki (طه زروقي )
Normalizing different digit styles as توحيد الأرقام وتنميطها إلى شكل معين Arabic western numeral: '0123456789' Arabic eastern digit: '٠١٢٣٤٥٦٧٨٩' Arabic eastern digit variant: '۰۱۲۳۴۵۶۷۸۹' الوظائف functions Normalize digits to Arabic...
تنظيف وتنميط النص العربي بحذف العلامات المختلفة مثل : - العلامات القرآنية الموجودة في يونيكود - مدخل: -يُنَزِّلُ ٱلْمَلَٰٓئِكَةَ بِٱلرُّوحِ مِنْ أَمْرِهِۦ عَلَىٰ مَن يَشَآءُ مِنْ عِبَادِهِۦٓ أَنْ أَنذِرُوٓاْ أَنَّهُۥ...
*verb list to check in order to enrich arramooz verb list get from ayaspell * data extracted from arramooz project from noun list * verbVocalized سَنِيَ آرَبَ أَبَّدَ أَبِدَ أَبَّنَ...
In some cases, Lam Alif Hamza vocalization is missing We must update data to handle this cases
- Make automatic conversion from Arabic Dictionary to arabic Hunspell dictionary for nouns - Document the process
إضافة خيارات للتشكيل، - [ ] التشكيل للنطق، يمكن إقفال بعض الحركات التي لا تنطق. مثلا جاءت السيارة، لا داعي للضمة عند الوقف. - [ ] تشكيل مع قريبة الدقة،...
Get frequencies of stopwords in huge corpus like: - [x] wikipedia - [x] Tashkeela - [ ] News Corpus Allow to get the most frequent lists, according to corpus (News,...
- [ ] Re index affixes list - [ ] verb affixer refactoring - [ ] noun affixer refactoring
- [ ] build a test set for verb and noun affixation - [ ] choose 500 verbs and 500 nouns for data set. - [x] set stop words data...