OpenCC 是 Open Chinese Convert 的縮寫,是轉換中文簡繁的工具
安裝
pip install opencc-python-reimplemented
轉換的模式有以下這幾種:
hk2s
: 繁體中文 (香港) -> 簡體中文s2hk
: 簡體中文 -> 繁體中文 (香港)s2t
: 簡體中文 -> 繁體中文s2tw
: 簡體中文 -> 繁體中文 (台灣)s2twp
: 簡體中文 -> 繁體中文 (台灣, 包含慣用詞轉換)t2hk
: 繁體中文 -> 繁體中文 (香港)t2s
: 繁體中文 -> 簡體中文t2tw
: 繁體中文 -> 繁體中文 (台灣)tw2s
: 繁體中文 (台灣) -> 簡體中文tw2sp
: 繁體中文 (台灣) -> 簡體中文 (包含慣用詞轉換 )
有兩種使用方式
在 python 程式中使用
from opencc import OpenCC tw2s = OpenCC("tw2s") tw2sp = OpenCC("tw2sp") s2tw = OpenCC("s2tw") s2twp = OpenCC("s2twp") print( tw2s.convert("香煙(英語:Cigarette),為煙草製品的一種。滑鼠是一種很常見及常用的電腦輸入設備。") ) # 香烟(英语:Cigarette),为烟草制品的一种。滑鼠是一种很常见及常用的电脑输入设备。 print( tw2sp.convert("香煙(英語:Cigarette),為煙草製品的一種。滑鼠是一種很常見及常用的電腦輸入設備。") ) # 香烟(英语:Cigarette),为烟草制品的一种。鼠标是一种很常见及常用的电脑输入设备。 print( tw2s.convert("人工智慧(英語:artificial intelligence,縮寫為AI)亦稱智械、機器智慧,指由人製造出來的機器所表現出來的智慧。通常人工智慧是指透過普通電腦程式來呈現人類智慧的技術。") ) # 人工智慧(英语:artificial intelligence,缩写为AI)亦称智械、机器智慧,指由人制造出来的机器所表现出来的智慧。通常人工智慧是指透过普通电脑程式来呈现人类智慧的技术。 print( tw2sp.convert("人工智慧(英語:artificial intelligence,縮寫為AI)亦稱智械、機器智慧,指由人製造出來的機器所表現出來的智慧。通常人工智慧是指透過普通電腦程式來呈現人類智慧的技術。") ) # 人工智能(英语:artificial intelligence,缩写为AI)亦称智械、机器智能,指由人制造出来的机器所表现出来的智能。通常人工智能是指透过普通电脑程序来呈现人类智能的技术。
Command line
s$ python -m opencc --help usage: __main__.py [-h] [-i <file>] [-o <file>] [-c <conversion>] [--in-enc <encoding>] [--out-enc <encoding>] optional arguments: -h, --help show this help message and exit -i <file>, --input <file> Read original text from <file>. (default: None) -o <file>, --output <file> Write converted text to <file>. (default: None) -c <conversion>, --config <conversion> Conversion (default: None) --in-enc <encoding> Encoding for input (default: UTF-8) --out-enc <encoding> Encoding for output (default: UTF-8)
python -m opencc -c tw2s -i s_input_file.txt -o tw_output_file.txt python -m opencc -c tw2sp -i s_input_file.txt -o twp_output_file.txt
沒有留言:
張貼留言