Arabic-News-Article-Classification copied to clipboard
build same classification with deferent categories and dataset
Hello I want to build the same model
I want to use my own dataset and categories
I have a list of questions with categories
but the issue here I could not find the code you used to prepare the dataset
as dataset prepared on model
can you share the code with us
thank you
Hi, there's a file made especially for preprocessing The librairies used during this phase are mostly Free/Open source (NLTK) For the stemming (which is the most important step) I used Farasa, written in Java btw, but you can use sys calls to run the JARs.
i got FarasaSegmenter file
but there is something wrong
i used pipeline method from helper to preprocess the text
this is the input
أمرت السلطات القطرية الأسواق والمراكز التجارية في البلاد برفع وإزالة السلع الواردة من السعودية والبحرين والإمارات ومصر في الذكرى الأولى لإعلان هذه الدول الحصار عليها.
after run getLemmaArticle output is
امر+ت ال+سلط+ات ال+قطري+ه ال+اسواق و+ال+مراكز ال+تجاري+ه ال+بلاد ب+رفع و+ازال+ه ال+سلع ال+وارد+ه ال+سعودي+ه و+ال+بحرين و+ال+امار+ات و+مصر ال+ذكري ال+اولي ل+اعلان ال+دول ال+حصار
and this is the output
امرت السلطات القطريه الاسواق والمراكز التجاريه البلاد برفع وازاله السلع الوارده السعوديه والبحرين والامارات ومصر الذكري الاولي لاعلان الدول الحصار
only stop words removed
Where can i get train_data.pkl, I want to creat my own train_data.pkl. Please guide me.
Try different input like this, it works: امرت السلطات القطريه الاسواق والمراكز التجاريه البلاد برفع وازاله السلع الوارده السعوديه والبحرين والامارات ومصر الذكري الاولي لاعلان الدول المقاطعة بسبب دعم الارهاب