发现一个好玩的：在正则表达式里用 [一-龟] ...

发现一个好玩的：在正则表达式里用 [一-龟] 匹配所有常用汉字。

Unicode 里的 CJK 字符有接近十万个，但是常用字都在 BMP 的 0x4E00 到 0x9FFF 这个区间里，约两万个。在这个区间里，第一个码点 0x4E00 对应的是「一」，最后一个码点 0x9FFF 对应的是生僻字「鿿」。如果从后往前看，则会发现 0x9F9F 对应的是常用汉字「龟」，之后的 96 个码点基本都是生僻字。

于是就可以打 [一-龟] 来等效 [\u4E00-\u9F9F] ，在大部分需要匹配汉字的场景都已经足够了…

wzyboy on Nostr: 发现一个好玩的：在正则表达式里用 [一-龟] ...