indic_nlp_library
indic_nlp_library copied to clipboard
Text Normalisation using Indic NLP library not working
from indicnlp.normalize.indic_normalize import IndicNormalizerFactory
input_text="சில உன்னத வேலைகளைச் செய்ய மனிதன் இந்த உலகில் பிறக்கிறான். அவர் வாழ்க்கையில் ஒரு உன்னத இலக்கு இருக்க வேண்டும். அவர் எட்டாம் வகுப்பு மாணவனாக இருக்கும்போது இந்த இலக்கை நிர்ணயிக்க வேண்டும். அதற்கு அவர் உண்மையான முயற்சிகளை மேற்கொள்ள வேண்டும். இது அவருக்கு வெற்றியைத் தரும், மேலும் அவர் தனது இலக்கை அடைய முடியும்" remove_nuktas=False factory=IndicNormalizerFactory() normalizer=factory.get_normalizer("ta",remove_nuktas=False) output_text=normalizer.normalize(input_text)
print(input_text) print(output_text)
The text normalisation is not working with this code, it gives back the same string regardless of remove_nuktas is true or false, can you tell what am I doing wrong?
I think remove_nuktas will not have any impact on Tamil text as we don't have nuktas. Unless we expand the definition to include other diacritics.
Sundar
On Fri, Jun 3, 2022 at 10:06 AM lusifer021 @.***> wrote:
from indicnlp.normalize.indic_normalize import IndicNormalizerFactory
input_text="சில உன்னத வேலைகளைச் செய்ய மனிதன் இந்த உலகில் பிறக்கிறான். அவர் வாழ்க்கையில் ஒரு உன்னத இலக்கு இருக்க வேண்டும். அவர் எட்டாம் வகுப்பு மாணவனாக இருக்கும்போது இந்த இலக்கை நிர்ணயிக்க வேண்டும். அதற்கு அவர் உண்மையான முயற்சிகளை மேற்கொள்ள வேண்டும். இது அவருக்கு வெற்றியைத் தரும், மேலும் அவர் தனது இலக்கை அடைய முடியும்" remove_nuktas=False factory=IndicNormalizerFactory() normalizer=factory.get_normalizer("ta",remove_nuktas=False) output_text=normalizer.normalize(input_text)
print(input_text) print(output_text)
The text normalisation is not working with this code, it gives back the same string regardless of remove_nuktas is true or false, can you tell what am I doing wrong?
— Reply to this email directly, view it on GitHub https://github.com/anoopkunchukuttan/indic_nlp_library/issues/54, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAHB666YPNOXOACHAOYE4A3VNGDVHANCNFSM5XXIZ2RA . You are receiving this because you are subscribed to this thread.Message ID: @.***>
Sundar is right. Thanks @oligoglot . Closing.