关于Nginx的return关键字小技巧

Nginx的return关键字属于HttpRewriteModule模块:

语法:return http状态码 
默认值:无
上下文:server,location,if

该指令将结束执行直接返回http状态码到客户端.

支持的http状态码:200, 204, 400, 402-406, 408, 410, 411, 413, 416 , 500-504,还有非标准的444状态码.

使用方法:

#不符合规则的返回403禁止访问

location /download/ {
    rewrite  ^(/download/.*)/media/(.*)\..*$  $1/mp3/$2.mp3  break;
    return   403;
}

小技巧

这些小技巧都是wiki里没有介绍的,而系统却是支持的。

如下配置文件:

server {
    server_name  test.liguangming.com;
    listen  80;
    location / {
        add_header Content-Type "text/plain;charset=utf-8";
        return 200 "Your IP Address:$remote_addr";
    }
}

执行请求:

curl -i http://test.liguangming.com

返回内容如下:

HTTP/1.1 200 OK
Server: nginx/1.0.13
Date: Thu, 10 May 2012 10:01:15 GMT
Content-Type: application/octet-stream
Content-Length: 30
Connection: keep-alive
Content-Type: text/plain;charset=utf-8

Your IP Address:123.128.217.19

好玩吧,还有呢,比如如下的配置文件:

server {
    server_name  test.liguangming.com;
    listen  80;
    location / {
        return http://liguangming.com/;
    }
}

执行请求:

curl -i http://test.liguangming.com

返回内容如下:

HTTP/1.1 302 Moved Temporarily
Server: nginx/1.0.13
Date: Thu, 10 May 2012 10:06:58 GMT
Content-Type: text/html
Content-Length: 161
Connection: keep-alive
Location: http://liguangming.com/
Content-Type: text/plain;charset=utf-8

<html>
<head><title>302 Found</title></head>
<body bgcolor="white">
<center><h1>302 Found</h1></center>
<hr><center>nginx/1.0.13</center>
</body>
</html>

是个302转向,为什么会这样呢?在nginx的源代码里找到src/http/modules/ngx_http_rewrite_module.c文件, 找到return关键字的解析配置:

{ ngx_string("return"),
  NGX_HTTP_SRV_CONF|NGX_HTTP_SIF_CONF|NGX_HTTP_LOC_CONF|NGX_HTTP_LIF_CONF
                   |NGX_CONF_TAKE12,
  ngx_http_rewrite_return,
  NGX_HTTP_LOC_CONF_OFFSET,
  0,
  NULL },

看到NGX_CONF_TAKE12,原来return允许接受一个或者两个参数啊.

再接着往下看找到ngx_http_rewrite_return函数:

static char *
ngx_http_rewrite_return(ngx_conf_t *cf, ngx_command_t *cmd, void *conf)
{
    ngx_http_rewrite_loc_conf_t  *lcf = conf;

    u_char                            *p;
    ngx_str_t                         *value, *v;
    ngx_http_script_return_code_t     *ret;
    ngx_http_compile_complex_value_t   ccv;

    ret = ngx_http_script_start_code(cf->pool, &lcf->codes,
                                     sizeof(ngx_http_script_return_code_t));
    if (ret == NULL) {
        return NGX_CONF_ERROR;
    }

    value = cf->args->elts;

    ngx_memzero(ret, sizeof(ngx_http_script_return_code_t));

    ret->code = ngx_http_script_return_code;

    p = value[1].data;

    ret->status = ngx_atoi(p, value[1].len);

    if (ret->status == (uintptr_t) NGX_ERROR) {

        if (cf->args->nelts == 2
            && (ngx_strncmp(p, "http://", sizeof("http://") - 1) == 0
                || ngx_strncmp(p, "https://", sizeof("https://") - 1) == 0
                || ngx_strncmp(p, "$scheme", sizeof("$scheme") - 1) == 0))
        {
            ret->status = NGX_HTTP_MOVED_TEMPORARILY;
            v = &value[1];

        } else {
            ngx_conf_log_error(NGX_LOG_EMERG, cf, 0,
                               "invalid return code \"%V\"", &value[1]);
            return NGX_CONF_ERROR;
        }

    } else {

        if (cf->args->nelts == 2) {
            return NGX_CONF_OK;
        }

        v = &value[2];
    }

    ngx_memzero(&ccv, sizeof(ngx_http_compile_complex_value_t));

    ccv.cf = cf;
    ccv.value = v;
    ccv.complex_value = &ret->text;

    if (ngx_http_compile_complex_value(&ccv) != NGX_OK) {
        return NGX_CONF_ERROR;
    }

    return NGX_CONF_OK;
}

当一个参数的时候,并不一定要是状态码,如果是一个网址,以http,https,或者与请求相同的协议,就会返回一个302重定向. 相当于:

return 302 http://liguangming.com/;

第二个参数会作为内容返回,其实这不就是一个简单的原生的echo模块吗? 赶着回去吃饭,匆忙写成的,难免有疏漏,有时间再修改.

参考资源

May-10 18:32  Permalink to 关于Nginx的return配置小技巧 

怎么在Python里使用UTF-8编码?

基本概念

在Python里有两种类型的字符串类型:字节字符串和Unicode的字符串,一个字节字符串就是一个包含字节列表。 当需要的时候,Python根据电脑默认的locale设置将字节转化成字符。 在Mac OX上默认的编码是UTF-8,但是在别的系统上,大部分是ASCII。

比如创建一个字节字符串:

byteString = "hello world! (in my default locale)"

创建一个Unicode字符串:

unicodeString = u"hello Unicode world!"

将一个字节字符串转成Unicode字符串然后再转回来:

s = "hello byte string"
u = s.decode()
backToBytes = u.encode()

以上代码使用的是系统默认的字符来出来转换的。 然而,依赖系统的区域设置的字符集不是一个好主意,或许你的程序在泰文用户的电脑上就会崩溃。 最好的办法就是为字符指定一个编码:

s = "hello normal string"
u = s.decode("UTF-8" )
backToBytes = u.encode( "UTF-8" )

现在,字节字符串s就被当成一个UTF-8字节列表去创建一个Unicode字符串u, 下一行用UTF-8表示的字符串u转换成字节字符串backToBytes.

如何判断一个对象是字符串

比如这样去判断:

if isinstance( s, str ):
    pass

这样是不对的,因为Unicode字符串将不为真. 代替的是使用通用字符串类, basestring:

if isinstance( s, basestring ):# True for both Unicode and byte strings
    pass

单独判断是不是Unicode字符串:

if isinstance( s, unicode ):
    pass

读取UTF-8编码的文件

你可以手工转换从文件中读取的字符串,方法很简单:

import codecs
fileObj = codecs.open( "someFile", "r", "UTF-8" )
u = fileObj.read() # Returns a Unicode string from the UTF-8 bytes in the file

codecs模块可以处理所有的编码转换。

源码的编码声明

Python源代码默认是 ASCII.可以在源文件的第一行或者是第二行作如下声明:

# coding=UTF-8

or (using formats recognized by popular editors):

#!/usr/bin/python
# -*- coding: UTF-8 -*-

or:

#!/usr/bin/python
# vim: set fileencoding=UTF-8 :

系统编码

前面说了,Python根据电脑默认的locale设置将字节转化成字符.那如何获得系统的默认编码:

import sys
print sys.getdefaultencoding()

更改系统的默认编码:

import sys
reload(sys)
sys.setdefaultencoding('UTF-8')

为什么要reload sys模块,先看下python的模块加载过程:

# python -v
# installing zipimport hook
import zipimport # builtin
# installed zipimport hook
# /usr/local/lib/python2.6/site.pyc matches /usr/local/lib/python2.6/site.py
import site # precompiled from /usr/local/lib/python2.6/site.pyc
....

Python运行的时候首先加载了site.py,在site.py文件里有这么一段代码:

if hasattr(sys, "setdefaultencoding"):
    del sys.setdefaultencoding

在sys加载后,setdefaultencoding方法被删除了,所以我们要通过重新导入sys来设置系统编码.

参考文章

Apr-11 17:06  Permalink to 怎么在Python里使用UTF-8编码 

大家都知道Sphinx是一个全文索引程序,它的高速查询能力也是有目共睹的。除了这些,我们是否还能挖掘点别的功能出来呢?不如作为一个简单的缓存服务器。

Sphinx

先来了解下Sphinx的使用的文件,Sphinx使用的文件包括 .sph, .spa, .spi, .spd, .spp, .spm ,.spl。

  • sph:头文件,保存的是系统的配置文件。
  • spi:保存WordId及指向此WordId对应的文档信息在spd文件的指针, spi文件在检索程序启动时完全加载入内存。 spi文件是分块的,块内排序,块之间也排序。分块的目的应该是为了快速检索到WordId, 因为spi中的WordId是变长压缩的,索引需要先在块级别做二分定位,再在快内解压缩查找。

  • spa:存储DocInfo的文件,检索程序启动时会把此文件加载如内存,sphinx可以指定DocInfo的存储方式:

    • inline:存储到spd文件中。
    • extern:单独存储,就会生成spa文件。
  • spd:文档列表。

  • spp:关键字所在位置列表。
  • spm:在DocInfo中,有一种特殊的属性,叫MVA,多值属性。 Sphinx对此属性特殊处理,需要存储在spm文件中。 检索程序启动时会把此文件加载如内存。 此属性在DocInfo对应位置存储其在此文件中的字节偏移量。

  • spk:killlist

  • spl:索引锁

通过介绍可以得知Sphinx存储的文档的属性,在0.98之前的版本是不存储的,我们是不是可以利用这些数据作为缓存使用呢,根据DocID获取文档的信息。

通过hack搜索服务添加SEARCHD_COMMAND_DOCINFO指令,客户端API添加GetDocinfo函数可以达到预期的效果。

php示例代码:

require 'sphinxapi.php';
$cl = new SphinxClient ();
$cl->SetServer();
$res = $cl->GetDocinfo(1, 'singer');
print_r($res);

结果如下:

Array
(
    [singer_id] => 1
    [singer_name] => 阿牛
    [cate_id] => 1
    [tag_ids] => Array
        (
            [0] => 110
            [1] => 114
            [2] => 127
        )
    [song_number] => 137
    [album_number] => 14
)

Patch文件 : https://gist.github.com/2251422

参考文章

Mar-30 16:56  Permalink to 如何将Sphinx配置成缓存服务器 

Sphinx索引配置文件有个wordfroms属性,wordfroms对应的是一个简单的字典文本文件,供sphinx在索引和搜索的时候替换词语使用。

Sphinx

作用

本质上,就是将一个词替换成另一个。这通常被用来将不同的词形变成一个单一的标准形式(即将词的各种形态如“walks”,“walked”,“walking”变为标准形式“walk”)。

例如:

walks>walk
walked>walk
walking>walk

也可以用来实现取词根的例外情况,因为词形字典中可以找到的词不会经过词干提取器的处理。 索引和搜索中的输入词都会利用词典做规则化。因此要使词形字典的更改起作用,需要重新索引并重启searchd。

影响

Sphnix的词形支持被设计成可以很好地支持很大的字典,仅对索引速度有微小的影响,搜索速度则完全不受影响。例如,一百万个条目的字典会使索引速度下降1.5倍。

额外的内存占用大体上等于字典文件的大小,而且字典是被多个索引共享的,即如果一个50MB的词形字典文件被10个不同的索引使用了,那么额外的searchd内存占用就是大约50MB。

格式

  • 每行包括一个源词和一个目标词,二者用大于号分隔。
  • 忽略大小写。
  • 遵循charset_table选项指定的规则。

技巧

  • 简繁转换

例如:

張>张
學>学

当搜索“张学友”和“張學友”和“張学友”能得到一样的结果.

  • 拼音纠错

例如:

张>zhang
学>xue
友>you

当搜索“张学友”和“zhang xue you”能得到一样的结果.

Mar-30 13:13  Permalink to 有关Sphinx的wordforms属性设置的小技巧