1. 为什么会有pyOpenCC

    因为readcola这个项目,要将一些繁体的电子书转换成简体中文书籍,测试的结果发现OpenCC的效果是非常好的,而且是开源的,便于和现在的工具整合。 在pip发现这个opencc-python,测试后发现只是调用OpenCC的命令行,对转换的内容长度也有限制。 抱着试试目的,在网上查了下Python的C扩展的写法,调用OpenCC的接口,讲过多次调试,于是就有了这个项目。第一次写作Python的C扩展。

  2. OpenCC

    Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成进程、在线转换服务及图形用户界面。

  3. What is pyOpenCC?

    pyOpenCC is a Python wrapper for Open Chinese Converter

  4. Installation

    You need to install opencc-dev first, To install OpenCC:

    Debian:

    apt-get install libopencc-dev -y
    

    FreeBSD:

    cd /usr/ports/chinese/opencc
    make install clean
    

    To install pyopencc:

    git clone https://github.com/cute/pyopencc.git
    cd pyopencc
    python setup.py build_ext -I /usr/local/include/opencc/
    python setup.py install
    
  5. How to use it?

    Following is a simple example:

    # -*- coding: utf8 -*-
    import opencc
    cc = opencc.OpenCC('zht2zhs.ini')
    print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')
    

    And the output should be:

    Open Chinese Convert(OpenCC)「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库(libopencc)。
    

    There are four convertion in opencc:

    • zht2zhs.ini - Traditional Chinese to Simplified Chinese
    • zhs2zht.ini - Simplified Chinese to Traditional Chinese
    • mix2zht.ini - Mixed to Traditional Chinese
    • mix2zhs.ini - Mixed to Simplified Chinese