Arthit Suriyawongkul

Results 362 comments of Arthit Suriyawongkul
trafficstars

I found that when compare the loading time of a corpus with one large file and multiple smaller files of exactly the same total size, one large is much slower.

Will CC-BY make it compatible with ICU terms? As a contributor for PyThaiNLP, we (PyThaiNLP) can reconsider about the license of dataset to make it more usable for the wider...

@nickt1512 you may like to update the word list from PyThaiNLP. We recently found lots of misspellings in the dictionary, some are documented here https://github.com/PyThaiNLP/pythainlp/issues/557 . Updated dictionary with corrections...

@artt you can also have your own custom dictionary. icu4c provides `gendict` command line tool to convert a text file contains word list into a ICU dictionary format (using trie...

ตัวพจนานุกรมมาตรฐานที่ใช้อยู่ตอนนี้ มาจาก Thai National Corpus https://github.com/PyThaiNLP/pythainlp/blob/39b814a9dcfafb516561844f89895d5be4cc2999/pythainlp/spell/pn.py#L167-L168 ซึ่งจะเก็บคำตามที่ปรากฏในภาษา รวมถึงคำที่สะกดผิดด้วย ในอนาคต ควรจะมีพจนานุกรมที่มีเฉพาะคำที่สะกดถูก ในระหว่างนี้ สามารถสร้าง spellchecker ขึ้นได้เอง จาก class NorvigSpellChecker และส่งพจนานุกรม ที่มีเฉพาะคำที่ถูกเข้าไปครับ

Related discussion https://github.com/PyThaiNLP/pythainlp/discussions/675

> 40000+ additions seems like a lot, on top of just 26000 words now. This seems excessive. Did someone measure the line breaking quality? By how much does it improve...

The list issue (list rendering incorrectly if there's no blank line before the list) is a known issue since 2.3.1, see #825