Arabic-News-Article-Classification icon indicating copy to clipboard operation
Arabic-News-Article-Classification copied to clipboard

build same classification with deferent categories and dataset

Open Baha2Odeh opened this issue 4 years ago • 4 comments

Hello I want to build the same model

I want to use my own dataset and categories

I have a list of questions with categories

but the issue here I could not find the code you used to prepare the dataset

as dataset prepared on model

can you share the code with us

thank you

Baha2Odeh avatar Sep 07 '19 16:09 Baha2Odeh

Hi, there's a file made especially for preprocessing helper.py. The librairies used during this phase are mostly Free/Open source (NLTK) For the stemming (which is the most important step) I used Farasa, written in Java btw, but you can use sys calls to run the JARs.

saidziani avatar Sep 07 '19 19:09 saidziani

i got FarasaSegmenter file but there is something wrong i used pipeline method from helper to preprocess the text this is the input أمرت السلطات القطرية الأسواق والمراكز التجارية في البلاد برفع وإزالة السلع الواردة من السعودية والبحرين والإمارات ومصر في الذكرى الأولى لإعلان هذه الدول الحصار عليها. after run getLemmaArticle output is امر+ت ال+سلط+ات ال+قطري+ه ال+اسواق و+ال+مراكز ال+تجاري+ه ال+بلاد ب+رفع و+ازال+ه ال+سلع ال+وارد+ه ال+سعودي+ه و+ال+بحرين و+ال+امار+ات و+مصر ال+ذكري ال+اولي ل+اعلان ال+دول ال+حصار and this is the output امرت السلطات القطريه الاسواق والمراكز التجاريه البلاد برفع وازاله السلع الوارده السعوديه والبحرين والامارات ومصر الذكري الاولي لاعلان الدول الحصار only stop words removed

Baha2Odeh avatar Sep 08 '19 07:09 Baha2Odeh

Where can i get train_data.pkl, I want to creat my own train_data.pkl. Please guide me.

itsani4u avatar Apr 08 '20 15:04 itsani4u

Try different input like this, it works: امرت السلطات القطريه الاسواق والمراكز التجاريه البلاد برفع وازاله السلع الوارده السعوديه والبحرين والامارات ومصر الذكري الاولي لاعلان الدول المقاطعة بسبب دعم الارهاب

sbkgith avatar Nov 26 '21 15:11 sbkgith