为什么会有pyOpenCC
因为readcola这个项目,要将一些繁体的电子书转换成简体中文书籍,测试的结果发现OpenCC的效果是非常好的,而且是开源的,便于和现在的工具整合。在pip发现这个opencc-python,测试后发现只是调用OpenCC的命令行,对转换的内容长度也有限制。抱着试试目的,在网上查了下Python的C扩展的写法,调用OpenCC的接口,讲过多次调试,于是就有了这个项目。第一次写作Python的C扩展。
OpenCC
Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成进程、在线转换服务及图形用户界面。
What is pyOpenCC?
pyOpenCC is a Python wrapper for Open Chinese Converter
Installation
You need to install opencc-dev first, To install OpenCC:
Debian:
apt-get install libopencc-dev -y
FreeBSD:
cd /usr/ports/chinese/opencc
make install clean
To install pyopencc:
git clone https://github.com/cute/pyopencc.git
cd pyopencc
python setup.py build_ext -I /usr/local/include/opencc/
python setup.py install
How to use it?
Following is a simple example:
# -*- coding: utf8 -*-
import opencc
cc = opencc.OpenCC('zht2zhs.ini')
print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')
And the output should be:
Open Chinese Convert(OpenCC)「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库(libopencc)。
There are four convertion in opencc:
- zht2zhs.ini - Traditional Chinese to Simplified Chinese
- zhs2zht.ini - Simplified Chinese to Traditional Chinese
- mix2zht.ini - Mixed to Traditional Chinese
- mix2zhs.ini - Mixed to Simplified Chinese
May-9 12:00
PHP的STDIN是阻塞操作,直接读取内容的话会造成阻塞.如下代码会一直运行直到有数据输入:
$data = stream_get_contents(STDIN);
按理可以通过声明stream_set_blocking(STDIN, FALSE)来操作:
stream_set_blocking(STDIN, FALSE);
$data = stream_get_contents(STDIN);
运行依旧不行,其实这是一个Bug,描述:https://bugs.php.net/bug.php?id=34972
通过测试发现,可用通过ftell函数获取STDIN文件句柄指针读/写的位置来判断.
if(ftell(STDIN)===0){
$data = stream_get_contents(STDIN);
}
Feb-22 11:56
我们在从一个网站点击链接进入另一个页面时,浏览器会在header里加上Referer值,来标识这次访问的来源页面。但是这种标识有可能会泄漏用户的隐私,有时候我不想让其他人知道我是从哪里点击进来的,能否有手段可以让浏览器不要发送Referer呢?
- 使用新增的html5的解决方案,使用rel="noreferrer",声明连接的属性为noreferrer,目前只有chrome4+支持.
- 使用中间页面,但实际上还是发送referrer的,比如使用Google的连接转向,noreferrer.js.
- 使用javascript协议链接中转,参见下面的说明.
新开一个窗口,相当于target="_blank":
function open_window(link){
var arg = '\u003cscript\u003elocation.replace("'+link+'")\u003c/script\u003e';
window.open('javascript:window.name;', arg);
}
转向到一个连接,相当于target="_self":
function redirect(link){
var arg ='\u003cscript\u003etop.location.replace("'+link+'")\u003c/script\u003e';
var iframe = document.createElement('iframe');
iframe.src='javascript:window.name;';
iframe.name=arg;
document.body.appendChild(iframe);
}
其他连接:
Sep-30 16:48
kindle改变了我的阅读习惯,自从买了kindle touch之后,我利用上下班在公交车,地铁上的时间已经读了不少书了,一些以前没有时间阅读的书籍和资料,感觉确实是赚到了。

我琢磨着将要阅读的资料制作成书,通过Amazon的推送服务推送到Kindle阅读器上。

为了制作出精美的电子杂志,我在网上找了MobiPocket的文档结构,完全通过Python实现了生成Mobi电子书。

本来Amazon的kindlegen和calibre的ebook-convert能基本满足我的需求,可是经过测试发现如下一些缺憾:
- 速度慢, 同样的书,ebook-convert要9秒,kindlegen要5秒,而我写的脚本只需要0.5秒左右。
- kindlegen不支持Freebsd,目前只能运行在Linux,Wdinwos,Mac平台。
- 不得不说calibre是一个强大的桌面电子书管理软件,可是对于我来说太臃肿了。
- mobiperl,一个用perl写成的mobi电子书生成工具,年代比较久,试用了下可以生成mobi4电子书,不能识别相对路径。

我最近在阅读《画家与黑客》,是硅谷创业之父Paul Graham 的文集,用豆瓣上的话说是:适合所有程序员和互联网创业者,也适合一切对计算机行业感兴趣的读者。

Aug-15 16:17

Nginx的return关键字属于HttpRewriteModule模块:
语法:return http状态码
默认值:无
上下文:server,location,if
该指令将结束执行直接返回http状态码到客户端.
支持的http状态码:200, 204, 400, 402-406, 408, 410, 411, 413, 416 , 500-504,还有非标准的444状态码.
使用方法:
#不符合规则的返回403禁止访问
location /download/ {
rewrite ^(/download/.*)/media/(.*)\..*$ $1/mp3/$2.mp3 break;
return 403;
}
小技巧
这些小技巧都是wiki里没有介绍的,而系统却是支持的。
如下配置文件:
server {
server_name test.liguangming.com;
listen 80;
location / {
add_header Content-Type "text/plain;charset=utf-8";
return 200 "Your IP Address:$remote_addr";
}
}
执行请求:
curl -i http://test.liguangming.com
返回内容如下:
HTTP/1.1 200 OK
Server: nginx/1.0.13
Date: Thu, 10 May 2012 10:01:15 GMT
Content-Type: application/octet-stream
Content-Length: 30
Connection: keep-alive
Content-Type: text/plain;charset=utf-8
Your IP Address:123.128.217.19
好玩吧,还有呢,比如如下的配置文件:
server {
server_name test.liguangming.com;
listen 80;
location / {
return http://liguangming.com/;
}
}
执行请求:
curl -i http://test.liguangming.com
返回内容如下:
HTTP/1.1 302 Moved Temporarily
Server: nginx/1.0.13
Date: Thu, 10 May 2012 10:06:58 GMT
Content-Type: text/html
Content-Length: 161
Connection: keep-alive
Location: http://liguangming.com/
Content-Type: text/plain;charset=utf-8
<html>
<head><title>302 Found</title></head>
<body bgcolor="white">
<center><h1>302 Found</h1></center>
<hr><center>nginx/1.0.13</center>
</body>
</html>
是个302转向,为什么会这样呢?在nginx的源代码里找到src/http/modules/ngx_http_rewrite_module.c文件,
找到return关键字的解析配置:
{ ngx_string("return"),
NGX_HTTP_SRV_CONF|NGX_HTTP_SIF_CONF|NGX_HTTP_LOC_CONF|NGX_HTTP_LIF_CONF
|NGX_CONF_TAKE12,
ngx_http_rewrite_return,
NGX_HTTP_LOC_CONF_OFFSET,
0,
NULL },
看到NGX_CONF_TAKE12,原来return允许接受一个或者两个参数啊.
再接着往下看找到ngx_http_rewrite_return函数:
static char *
ngx_http_rewrite_return(ngx_conf_t *cf, ngx_command_t *cmd, void *conf)
{
ngx_http_rewrite_loc_conf_t *lcf = conf;
u_char *p;
ngx_str_t *value, *v;
ngx_http_script_return_code_t *ret;
ngx_http_compile_complex_value_t ccv;
ret = ngx_http_script_start_code(cf->pool, &lcf->codes,
sizeof(ngx_http_script_return_code_t));
if (ret == NULL) {
return NGX_CONF_ERROR;
}
value = cf->args->elts;
ngx_memzero(ret, sizeof(ngx_http_script_return_code_t));
ret->code = ngx_http_script_return_code;
p = value[1].data;
ret->status = ngx_atoi(p, value[1].len);
if (ret->status == (uintptr_t) NGX_ERROR) {
if (cf->args->nelts == 2
&& (ngx_strncmp(p, "http://", sizeof("http://") - 1) == 0
|| ngx_strncmp(p, "https://", sizeof("https://") - 1) == 0
|| ngx_strncmp(p, "$scheme", sizeof("$scheme") - 1) == 0))
{
ret->status = NGX_HTTP_MOVED_TEMPORARILY;
v = &value[1];
} else {
ngx_conf_log_error(NGX_LOG_EMERG, cf, 0,
"invalid return code "%V"", &value[1]);
return NGX_CONF_ERROR;
}
} else {
if (cf->args->nelts == 2) {
return NGX_CONF_OK;
}
v = &value[2];
}
ngx_memzero(&ccv, sizeof(ngx_http_compile_complex_value_t));
ccv.cf = cf;
ccv.value = v;
ccv.complex_value = &ret->text;
if (ngx_http_compile_complex_value(&ccv) != NGX_OK) {
return NGX_CONF_ERROR;
}
return NGX_CONF_OK;
}
当一个参数的时候,并不一定要是状态码,如果是一个网址,以http,https,或者与请求相同的协议,就会返回一个302重定向.
相当于:
return 302 http://liguangming.com/;
第二个参数会作为内容返回,其实这不就是一个简单的原生的echo模块吗?
赶着回去吃饭,匆忙写成的,难免有疏漏,有时间再修改.
参考资源
May-10 18:32

基本概念
在Python里有两种类型的字符串类型:字节字符串和Unicode的字符串,一个字节字符串就是一个包含字节列表。
当需要的时候,Python根据电脑默认的locale设置将字节转化成字符。
在Mac OX上默认的编码是UTF-8,但是在别的系统上,大部分是ASCII。
比如创建一个字节字符串:
byteString = "hello world! (in my default locale)"
创建一个Unicode字符串:
unicodeString = u"hello Unicode world!"
将一个字节字符串转成Unicode字符串然后再转回来:
s = "hello byte string"
u = s.decode()
backToBytes = u.encode()
以上代码使用的是系统默认的字符来出来转换的。
然而,依赖系统的区域设置的字符集不是一个好主意,或许你的程序在泰文用户的电脑上就会崩溃。
最好的办法就是为字符指定一个编码:
s = "hello normal string"
u = s.decode("UTF-8" )
backToBytes = u.encode( "UTF-8" )
现在,字节字符串s就被当成一个UTF-8字节列表去创建一个Unicode字符串u,
下一行用UTF-8表示的字符串u转换成字节字符串backToBytes.
如何判断一个对象是字符串
比如这样去判断:
if isinstance( s, str ):
pass
这样是不对的,因为Unicode字符串将不为真.
代替的是使用通用字符串类, basestring:
if isinstance( s, basestring ):# True for both Unicode and byte strings
pass
单独判断是不是Unicode字符串:
if isinstance( s, unicode ):
pass
读取UTF-8编码的文件
你可以手工转换从文件中读取的字符串,方法很简单:
import codecs
fileObj = codecs.open( "someFile", "r", "UTF-8" )
u = fileObj.read() # Returns a Unicode string from the UTF-8 bytes in the file
codecs模块可以处理所有的编码转换。
源码的编码声明
Python源代码默认是 ASCII.可以在源文件的第一行或者是第二行作如下声明:
# coding=UTF-8
or (using formats recognized by popular editors):
#!/usr/bin/python
# -*- coding: UTF-8 -*-
or:
#!/usr/bin/python
# vim: set fileencoding=UTF-8 :
系统编码
前面说了,Python根据电脑默认的locale设置将字节转化成字符.那如何获得系统的默认编码:
import sys
print sys.getdefaultencoding()
更改系统的默认编码:
import sys
reload(sys)
sys.setdefaultencoding('UTF-8')
为什么要reload sys模块,先看下python的模块加载过程:
# python -v
# installing zipimport hook
import zipimport # builtin
# installed zipimport hook
# /usr/local/lib/python2.6/site.pyc matches /usr/local/lib/python2.6/site.py
import site # precompiled from /usr/local/lib/python2.6/site.pyc
....
Python运行的时候首先加载了site.py,在site.py文件里有这么一段代码:
if hasattr(sys, "setdefaultencoding"):
del sys.setdefaultencoding
在sys加载后,setdefaultencoding方法被删除了,所以我们要通过重新导入sys来设置系统编码.
参考文章
Apr-11 17:06
大家都知道Sphinx是一个全文索引程序,它的高速查询能力也是有目共睹的。除了这些,我们是否还能挖掘点别的功能出来呢?不如作为一个简单的缓存服务器。

先来了解下Sphinx的使用的文件,Sphinx使用的文件包括 .sph, .spa, .spi, .spd, .spp, .spm ,.spl。
- sph:头文件,保存的是系统的配置文件。
-
spi:保存WordId及指向此WordId对应的文档信息在spd文件的指针,
spi文件在检索程序启动时完全加载入内存。
spi文件是分块的,块内排序,块之间也排序。分块的目的应该是为了快速检索到WordId,
因为spi中的WordId是变长压缩的,索引需要先在块级别做二分定位,再在快内解压缩查找。
-
spa:存储DocInfo的文件,检索程序启动时会把此文件加载如内存,sphinx可以指定DocInfo的存储方式:
- inline:存储到spd文件中。
- extern:单独存储,就会生成spa文件。
-
spd:文档列表。
- spp:关键字所在位置列表。
-
spm:在DocInfo中,有一种特殊的属性,叫MVA,多值属性。
Sphinx对此属性特殊处理,需要存储在spm文件中。
检索程序启动时会把此文件加载如内存。
此属性在DocInfo对应位置存储其在此文件中的字节偏移量。
-
spk:killlist
- spl:索引锁
通过介绍可以得知Sphinx存储的文档的属性,在0.98之前的版本是不存储的,我们是不是可以利用这些数据作为缓存使用呢,根据DocID获取文档的信息。
通过hack搜索服务添加SEARCHD_COMMAND_DOCINFO指令,客户端API添加GetDocinfo函数可以达到预期的效果。
php示例代码:
require 'sphinxapi.php';
$cl = new SphinxClient ();
$cl->SetServer();
$res = $cl->GetDocinfo(1, 'singer');
print_r($res);
结果如下:
Array
(
[singer_id] => 1
[singer_name] => 阿牛
[cate_id] => 1
[tag_ids] => Array
(
[0] => 110
[1] => 114
[2] => 127
)
[song_number] => 137
[album_number] => 14
)
Patch文件 : https://gist.github.com/2251422
参考文章
Mar-30 16:56
Sphinx索引配置文件有个wordfroms属性,wordfroms对应的是一个简单的字典文本文件,供sphinx在索引和搜索的时候替换词语使用。

作用
本质上,就是将一个词替换成另一个。这通常被用来将不同的词形变成一个单一的标准形式(即将词的各种形态如“walks”,“walked”,“walking”变为标准形式“walk”)。
例如:
walks>walk
walked>walk
walking>walk
也可以用来实现取词根的例外情况,因为词形字典中可以找到的词不会经过词干提取器的处理。
索引和搜索中的输入词都会利用词典做规则化。因此要使词形字典的更改起作用,需要重新索引并重启searchd。
影响
Sphnix的词形支持被设计成可以很好地支持很大的字典,仅对索引速度有微小的影响,搜索速度则完全不受影响。例如,一百万个条目的字典会使索引速度下降1.5倍。
额外的内存占用大体上等于字典文件的大小,而且字典是被多个索引共享的,即如果一个50MB的词形字典文件被10个不同的索引使用了,那么额外的searchd内存占用就是大约50MB。
格式
- 每行包括一个源词和一个目标词,二者用大于号分隔。
- 忽略大小写。
- 遵循charset_table选项指定的规则。
技巧
例如:
張>张
學>学
当搜索“张学友”和“張學友”和“張学友”能得到一样的结果.
例如:
张>zhang
学>xue
友>you
当搜索“张学友”和“zhang xue you”能得到一样的结果.
Mar-30 13:13