nlpo3
nlpo3 copied to clipboard
Update match non-Thai tokens
trafficstars
From https://github.com/PyThaiNLP/pythainlp/pull/856, newmm has updated the rule. I added the regex to up-to-date nlpo3.
r"(?x)^[\u0E00-\u0E7F \t\r\n]"
อันนี้เข้าใจว่าต้องการทดสอบว่าขึ้นต้นด้วยอักขระไทยแล้วตามด้วย \tหรือ\rหรือ\n ใช่มั้ยครับ ถ้าใช่ก็จะต้องแก้เป็น r"(?x)^[\u0E00-\u0E7F][\t\r\n]"
r"(?x)^[\u0E00-\u0E7F \t\r\n]"
อันนี้เข้าใจว่าต้องการทดสอบว่าขึ้นต้นด้วยอักขระไทยแล้วตามด้วย \tหรือ\rหรือ\n ใช่มั้ยครับ ถ้าใช่ก็จะต้องแก้เป็น r"(?x)^[\u0E00-\u0E7F][\t\r\n]"
ยกเว้นภายในทั้งหมดครับ
ตอนนี้ในเวอร์ชัน Python มันใช้ | เพื่อ early return ไม่แน่ใจว่าของ Rust มันไล่ลำดับ regex ยังไง