自由気ままな猫 : Java Chinese/Japanese/Korean words

前幾天寫搜尋引擎在做indexing的時候，需要過濾一些雜訊。
下面這段程式碼能夠判斷word是否只含有英文、數字、中文、日文、韓文，也能接受注音符號哦！

詳細的API資訊可以參考Java的Character.UnicodeBlock，以及Pattern類別中強大的Unicode scripts。
FileFormat.Info這個網站有列出Unicode的範圍，也提供Unicode Character Search，
需要查詢特定語言的Unicode範圍時可以參考這個網站。

然而，比起用 [\u4E00-\u9FA5]+ 這類的Pattern表示式，
使用 [\p{InCJK_UNIFIED_IDEOGRAPHS}]+ 之類的UnicodeBlock可讀性會更高哦。