nlpo3 icon indicating copy to clipboard operation
nlpo3 copied to clipboard

Update match non-Thai tokens

Open wannaphong opened this issue 1 year ago • 3 comments
trafficstars

From https://github.com/PyThaiNLP/pythainlp/pull/856, newmm has updated the rule. I added the regex to up-to-date nlpo3.

wannaphong avatar Nov 26 '23 12:11 wannaphong

r"(?x)^[\u0E00-\u0E7F \t\r\n]"

อันนี้เข้าใจว่าต้องการทดสอบว่าขึ้นต้นด้วยอักขระไทยแล้วตามด้วย \tหรือ\rหรือ\n ใช่มั้ยครับ ถ้าใช่ก็จะต้องแก้เป็น r"(?x)^[\u0E00-\u0E7F][\t\r\n]"

Gorlph avatar Nov 26 '23 18:11 Gorlph

r"(?x)^[\u0E00-\u0E7F \t\r\n]"

อันนี้เข้าใจว่าต้องการทดสอบว่าขึ้นต้นด้วยอักขระไทยแล้วตามด้วย \tหรือ\rหรือ\n ใช่มั้ยครับ ถ้าใช่ก็จะต้องแก้เป็น r"(?x)^[\u0E00-\u0E7F][\t\r\n]"

ยกเว้นภายในทั้งหมดครับ

wannaphong avatar Nov 26 '23 19:11 wannaphong

ตอนนี้ในเวอร์ชัน Python มันใช้ | เพื่อ early return ไม่แน่ใจว่าของ Rust มันไล่ลำดับ regex ยังไง

bact avatar Nov 27 '23 17:11 bact