Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,更友好,更易用。

Requests

Requests 使用的是 urllib3,因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。现代、国际化、人性化。

最近在使用Requests的过程中发现一个问题,就是抓去某些中文网页的时候,出现乱码,打印encoding是ISO-8859-1。为什么会这样呢?通过查看源码,我发现默认的编码识别比较简单,直接从响应头文件的Content-Type里获取,如果存在charset,则可以正确识别,如果不存在charset但是存在text就认为是ISO-8859-1,见utils.py。

def get_encoding_from_headers(headers):
    """Returns encodings from given HTTP Header Dict.

    :param headers: dictionary to extract encoding from.
    """
    content_type = headers.get('content-type')

    if not content_type:
        return None

    content_type, params = cgi.parse_header(content_type)

    if 'charset' in params:
        return params['charset'].strip("'\"")

    if 'text' in content_type:
        return 'ISO-8859-1'

其实Requests提供了从内容获取编码,只是在默认中没有使用,见utils.py:

def get_encodings_from_content(content):
    """Returns encodings from given content string.

    :param content: bytestring to extract encodings from.
    """
    charset_re = re.compile(r'<meta.*?charset=["\']*(.+?)["\'>]', flags=re.I)
    pragma_re = re.compile(r'<meta.*?content=["\']*;?charset=(.+?)["\'>]', flags=re.I)
    xml_re = re.compile(r'^<\?xml.*?encoding=["\']*(.+?)["\'>]')

    return (charset_re.findall(content) +
            pragma_re.findall(content) +
            xml_re.findall(content))

还提供了使用chardet的编码检测,见models.py:

@property
def apparent_encoding(self):
    """The apparent encoding, provided by the lovely Charade library
    (Thanks, Ian!)."""
    return chardet.detect(self.content)['encoding']

如何修复这个问题呢?先来看一下示例:

>>> r = requests.get('http://cn.python-requests.org/en/latest/')
>>> r.headers['content-type']
'text/html'
>>> r.encoding
'ISO-8859-1'
>>> r.apparent_encoding
'utf-8'
>>> requests.utils.get_encodings_from_content(r.content)
['utf-8']

>>> r = requests.get('http://reader.360duzhe.com/2013_24/index.html')
>>> r.headers['content-type']
'text/html'
>>> r.encoding
'ISO-8859-1'
>>> r.apparent_encoding
'gb2312'
>>> requests.utils.get_encodings_from_content(r.content)
['gb2312']

通过了解,可以这么用一个monkey patch解决这个问题:

import requests
def monkey_patch():
    prop = requests.models.Response.content
    def content(self):
        _content = prop.fget(self)
        if self.encoding == 'ISO-8859-1':
            encodings = requests.utils.get_encodings_from_content(_content)
            if encodings:
                self.encoding = encodings[0]
            else:
                self.encoding = self.apparent_encoding
            _content = _content.decode(self.encoding, 'replace').encode('utf8', 'replace')
            self._content = _content
        return _content
    requests.models.Response.content = property(content)
monkey_patch()

相关文章:

Jan-1 11:23  Permalink to Python+Requests编码识别Bug 

利用gzcompress, base64_encode等方法对代码文件多次转换,加入大量的中文等不忍猝读的字符,达到加密混淆的目的.PHP从5开始支持符合[-zA-Z_\x7f-\xff][a-zA-Z0-9_\x7f-\xff]*规则函数,变量,类名.

网上比较常见的的如下三家产品:

  • PHP神盾

    PHP神盾,是一款无需依靠附加扩展来解析的php加密工具,保护强度是目前此类产品中的佼佼者之一.

  • PHP加密

    PHP在线加密平台(phpjm.net)是一个优秀的免费的PHP源码加密保护平台,PHP代码加密后无需依靠附加扩展来解析,服务器端无需安装任何第三方组件,可运行于任何普通 PHP 环境下.

  • 易盾PHP加密

    易盾PHP加密可以保护您的PHP源程序代码不被破解.加密后,无论是正规途径销售出去的PHP程序,还是从非法渠道获得的PHP程序,都不能还原出真正的PHP程序源代码,能让您的知识产权得到保护.

PHP神盾和PHP加密的不需要第三方组件,易盾PHP加密需要安装他们的组件,Windows版本的提供下载,Linux的要购买后才提供下载,因为没有Windows环境,暂时忽略.通过以上网站提供的在线加密,我上传了一个简单的PHP脚本,代码如下.

<?php
    function test(){
        echo 'hello world.';
    } 
    test();
?>

我本地运行脚本加密后的密码,发现可以打印加密钱源代码,这也证实了我的猜想,加密后的代码要通过eval语言构造器,在代码内事无法重写的,只能通过对PHP编译器做了些手脚,就可以获得加密之前源代码了,以下是截图.

PHP加密

PHP加密

PHP神盾

PHP神盾

PHP神盾在里面还加入了一段javasript代码:

http://www.phpdp.org/index.php?mod=decode&code_key=xxx&sign=xxx

打开是侵权提示:

警告:您的行为已侵犯了本程式的使用条约,请停止您的脚步!

赶紧声明:本文仅是出于学习研究的目的,本人不提供源码破解等相关业务.

Dec-25 18:01  Permalink to PHP代码的另类加密方法 

为什么会有pyOpenCC

因为readcola这个项目,要将一些繁体的电子书转换成简体中文书籍,测试的结果发现OpenCC的效果是非常好的,而且是开源的,便于和现在的工具整合。在pip发现这个opencc-python,测试后发现只是调用OpenCC的命令行,对转换的内容长度也有限制。抱着试试目的,在网上查了下Python的C扩展的写法,调用OpenCC的接口,讲过多次调试,于是就有了这个项目。第一次写作Python的C扩展。

OpenCC

Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成进程、在线转换服务及图形用户界面。

What is pyOpenCC?

pyOpenCC is a Python wrapper for Open Chinese Converter

Installation

You need to install opencc-dev first, To install OpenCC:

Debian:

apt-get install libopencc-dev -y

FreeBSD:

cd /usr/ports/chinese/opencc
make install clean

To install pyopencc:

git clone https://github.com/cute/pyopencc.git
cd pyopencc
python setup.py build_ext -I /usr/local/include/opencc/
python setup.py install

How to use it?

Following is a simple example:

# -*- coding: utf8 -*-
import opencc
cc = opencc.OpenCC('zht2zhs.ini')
print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')

And the output should be:

Open Chinese Convert(OpenCC)「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库(libopencc)。

There are four convertion in opencc:

  • zht2zhs.ini - Traditional Chinese to Simplified Chinese
  • zhs2zht.ini - Simplified Chinese to Traditional Chinese
  • mix2zht.ini - Mixed to Traditional Chinese
  • mix2zhs.ini - Mixed to Simplified Chinese
May-9 12:00  Permalink to OpenCC Python binding 

PHP的STDIN是阻塞操作,直接读取内容的话会造成阻塞.如下代码会一直运行直到有数据输入:

$data = stream_get_contents(STDIN);

按理可以通过声明stream_set_blocking(STDIN, FALSE)来操作:

stream_set_blocking(STDIN, FALSE);
$data = stream_get_contents(STDIN);

运行依旧不行,其实这是一个Bug,描述:https://bugs.php.net/bug.php?id=34972

通过测试发现,可用通过ftell函数获取STDIN文件句柄指针读/写的位置来判断.

if(ftell(STDIN)===0){
    $data = stream_get_contents(STDIN);
}
Feb-22 11:56  Permalink to PHP命令行如何判断有管道数据输入 

我们在从一个网站点击链接进入另一个页面时,浏览器会在header里加上Referer值,来标识这次访问的来源页面。但是这种标识有可能会泄漏用户的隐私,有时候我不想让其他人知道我是从哪里点击进来的,能否有手段可以让浏览器不要发送Referer呢?

  • 使用新增的html5的解决方案,使用rel="noreferrer",声明连接的属性为noreferrer,目前只有chrome4+支持.
  • 使用中间页面,但实际上还是发送referrer的,比如使用Google的连接转向,noreferrer.js.
  • 使用javascript协议链接中转,参见下面的说明.

新开一个窗口,相当于target="_blank":

function open_window(link){ 
    var arg = '\u003cscript\u003elocation.replace("'+link+'")\u003c/script\u003e';
    window.open('javascript:window.name;', arg);
}

转向到一个连接,相当于target="_self":

function redirect(link){ 
    var arg ='\u003cscript\u003etop.location.replace("'+link+'")\u003c/script\u003e';
    var iframe = document.createElement('iframe');
    iframe.src='javascript:window.name;';
    iframe.name=arg;
    document.body.appendChild(iframe);
}

其他连接:

Sep-30 16:48  Permalink to 如何让浏览器在访问链接时不要带上referer? 

kindle改变了我的阅读习惯,自从买了kindle touch之后,我利用上下班在公交车,地铁上的时间已经读了不少书了,一些以前没有时间阅读的书籍和资料,感觉确实是赚到了。

readcola.com

我琢磨着将要阅读的资料制作成书,通过Amazon的推送服务推送到Kindle阅读器上。 readcola.com

为了制作出精美的电子杂志,我在网上找了MobiPocket的文档结构,完全通过Python实现了生成Mobi电子书。

readcola.com

本来Amazon的kindlegen和calibre的ebook-convert能基本满足我的需求,可是经过测试发现如下一些缺憾:

  • 速度慢, 同样的书,ebook-convert要9秒,kindlegen要5秒,而我写的脚本只需要0.5秒左右。
  • kindlegen不支持Freebsd,目前只能运行在Linux,Wdinwos,Mac平台。
  • 不得不说calibre是一个强大的桌面电子书管理软件,可是对于我来说太臃肿了。
  • mobiperl,一个用perl写成的mobi电子书生成工具,年代比较久,试用了下可以生成mobi4电子书,不能识别相对路径。

readcola.com

我最近在阅读《画家与黑客》,是硅谷创业之父Paul Graham 的文集,用豆瓣上的话说是:适合所有程序员和互联网创业者,也适合一切对计算机行业感兴趣的读者。

画家与黑客

Aug-15 16:17  Permalink to Kindle touch me 

关于Nginx的return关键字小技巧

Nginx的return关键字属于HttpRewriteModule模块:

语法:return http状态码
默认值:无
上下文:server,location,if

该指令将结束执行直接返回http状态码到客户端.

支持的http状态码:200, 204, 400, 402-406, 408, 410, 411, 413, 416 , 500-504,还有非标准的444状态码.

使用方法:

#不符合规则的返回403禁止访问

location /download/ {
    rewrite  ^(/download/.*)/media/(.*)\..*$  $1/mp3/$2.mp3  break;
    return   403;
}

小技巧

这些小技巧都是wiki里没有介绍的,而系统却是支持的。

如下配置文件:

server {
    server_name  test.liguangming.com;
    listen  80;
    location / {
        add_header Content-Type "text/plain;charset=utf-8";
        return 200 "Your IP Address:$remote_addr";
    }
}

执行请求:

curl -i http://test.liguangming.com

返回内容如下:

HTTP/1.1 200 OK
Server: nginx/1.0.13
Date: Thu, 10 May 2012 10:01:15 GMT
Content-Type: application/octet-stream
Content-Length: 30
Connection: keep-alive
Content-Type: text/plain;charset=utf-8

Your IP Address:123.128.217.19

好玩吧,还有呢,比如如下的配置文件:

server {
    server_name  test.liguangming.com;
    listen  80;
    location / {
        return http://liguangming.com/;
    }
}

执行请求:

curl -i http://test.liguangming.com

返回内容如下:

HTTP/1.1 302 Moved Temporarily
Server: nginx/1.0.13
Date: Thu, 10 May 2012 10:06:58 GMT
Content-Type: text/html
Content-Length: 161
Connection: keep-alive
Location: http://liguangming.com/
Content-Type: text/plain;charset=utf-8

<html>
<head><title>302 Found</title></head>
<body bgcolor="white">
<center><h1>302 Found</h1></center>
<hr><center>nginx/1.0.13</center>
</body>
</html>

是个302转向,为什么会这样呢?在nginx的源代码里找到src/http/modules/ngx_http_rewrite_module.c文件, 找到return关键字的解析配置:

{ ngx_string("return"),
  NGX_HTTP_SRV_CONF|NGX_HTTP_SIF_CONF|NGX_HTTP_LOC_CONF|NGX_HTTP_LIF_CONF
                   |NGX_CONF_TAKE12,
  ngx_http_rewrite_return,
  NGX_HTTP_LOC_CONF_OFFSET,
  0,
  NULL },

看到NGX_CONF_TAKE12,原来return允许接受一个或者两个参数啊.

再接着往下看找到ngx_http_rewrite_return函数:

static char *
ngx_http_rewrite_return(ngx_conf_t *cf, ngx_command_t *cmd, void *conf)
{
    ngx_http_rewrite_loc_conf_t  *lcf = conf;

    u_char                            *p;
    ngx_str_t                         *value, *v;
    ngx_http_script_return_code_t     *ret;
    ngx_http_compile_complex_value_t   ccv;

    ret = ngx_http_script_start_code(cf->pool, &lcf->codes,
                                     sizeof(ngx_http_script_return_code_t));
    if (ret == NULL) {
        return NGX_CONF_ERROR;
    }

    value = cf->args->elts;

    ngx_memzero(ret, sizeof(ngx_http_script_return_code_t));

    ret->code = ngx_http_script_return_code;

    p = value[1].data;

    ret->status = ngx_atoi(p, value[1].len);

    if (ret->status == (uintptr_t) NGX_ERROR) {

        if (cf->args->nelts == 2
            && (ngx_strncmp(p, "http://", sizeof("http://") - 1) == 0
                || ngx_strncmp(p, "https://", sizeof("https://") - 1) == 0
                || ngx_strncmp(p, "$scheme", sizeof("$scheme") - 1) == 0))
        {
            ret->status = NGX_HTTP_MOVED_TEMPORARILY;
            v = &value[1];

        } else {
            ngx_conf_log_error(NGX_LOG_EMERG, cf, 0,
                               "invalid return code "%V"", &value[1]);
            return NGX_CONF_ERROR;
        }

    } else {

        if (cf->args->nelts == 2) {
            return NGX_CONF_OK;
        }

        v = &value[2];
    }

    ngx_memzero(&ccv, sizeof(ngx_http_compile_complex_value_t));

    ccv.cf = cf;
    ccv.value = v;
    ccv.complex_value = &ret->text;

    if (ngx_http_compile_complex_value(&ccv) != NGX_OK) {
        return NGX_CONF_ERROR;
    }

    return NGX_CONF_OK;
}

当一个参数的时候,并不一定要是状态码,如果是一个网址,以http,https,或者与请求相同的协议,就会返回一个302重定向. 相当于:

return 302 http://liguangming.com/;

第二个参数会作为内容返回,其实这不就是一个简单的原生的echo模块吗? 赶着回去吃饭,匆忙写成的,难免有疏漏,有时间再修改.

参考资源

May-10 18:32  Permalink to 关于Nginx的return配置小技巧 

怎么在Python里使用UTF-8编码?

基本概念

在Python里有两种类型的字符串类型:字节字符串和Unicode的字符串,一个字节字符串就是一个包含字节列表。 当需要的时候,Python根据电脑默认的locale设置将字节转化成字符。 在Mac OX上默认的编码是UTF-8,但是在别的系统上,大部分是ASCII。

比如创建一个字节字符串:

byteString = "hello world! (in my default locale)"

创建一个Unicode字符串:

unicodeString = u"hello Unicode world!"

将一个字节字符串转成Unicode字符串然后再转回来:

s = "hello byte string"
u = s.decode()
backToBytes = u.encode()

以上代码使用的是系统默认的字符来出来转换的。 然而,依赖系统的区域设置的字符集不是一个好主意,或许你的程序在泰文用户的电脑上就会崩溃。 最好的办法就是为字符指定一个编码:

s = "hello normal string"
u = s.decode("UTF-8" )
backToBytes = u.encode( "UTF-8" )

现在,字节字符串s就被当成一个UTF-8字节列表去创建一个Unicode字符串u, 下一行用UTF-8表示的字符串u转换成字节字符串backToBytes.

如何判断一个对象是字符串

比如这样去判断:

if isinstance( s, str ):
    pass

这样是不对的,因为Unicode字符串将不为真. 代替的是使用通用字符串类, basestring:

if isinstance( s, basestring ):# True for both Unicode and byte strings
    pass

单独判断是不是Unicode字符串:

if isinstance( s, unicode ):
    pass

读取UTF-8编码的文件

你可以手工转换从文件中读取的字符串,方法很简单:

import codecs
fileObj = codecs.open( "someFile", "r", "UTF-8" )
u = fileObj.read() # Returns a Unicode string from the UTF-8 bytes in the file

codecs模块可以处理所有的编码转换。

源码的编码声明

Python源代码默认是 ASCII.可以在源文件的第一行或者是第二行作如下声明:

# coding=UTF-8

or (using formats recognized by popular editors):

#!/usr/bin/python
# -*- coding: UTF-8 -*-

or:

#!/usr/bin/python
# vim: set fileencoding=UTF-8 :

系统编码

前面说了,Python根据电脑默认的locale设置将字节转化成字符.那如何获得系统的默认编码:

import sys
print sys.getdefaultencoding()

更改系统的默认编码:

import sys
reload(sys)
sys.setdefaultencoding('UTF-8')

为什么要reload sys模块,先看下python的模块加载过程:

# python -v
# installing zipimport hook
import zipimport # builtin
# installed zipimport hook
# /usr/local/lib/python2.6/site.pyc matches /usr/local/lib/python2.6/site.py
import site # precompiled from /usr/local/lib/python2.6/site.pyc
....

Python运行的时候首先加载了site.py,在site.py文件里有这么一段代码:

if hasattr(sys, "setdefaultencoding"):
    del sys.setdefaultencoding

在sys加载后,setdefaultencoding方法被删除了,所以我们要通过重新导入sys来设置系统编码.

参考文章

Apr-11 17:06  Permalink to 怎么在Python里使用UTF-8编码 

大家都知道Sphinx是一个全文索引程序,它的高速查询能力也是有目共睹的。除了这些,我们是否还能挖掘点别的功能出来呢?不如作为一个简单的缓存服务器。

Sphinx

先来了解下Sphinx的使用的文件,Sphinx使用的文件包括 .sph, .spa, .spi, .spd, .spp, .spm ,.spl。

  • sph:头文件,保存的是系统的配置文件。
  • spi:保存WordId及指向此WordId对应的文档信息在spd文件的指针, spi文件在检索程序启动时完全加载入内存。 spi文件是分块的,块内排序,块之间也排序。分块的目的应该是为了快速检索到WordId, 因为spi中的WordId是变长压缩的,索引需要先在块级别做二分定位,再在快内解压缩查找。

  • spa:存储DocInfo的文件,检索程序启动时会把此文件加载如内存,sphinx可以指定DocInfo的存储方式:

    • inline:存储到spd文件中。
    • extern:单独存储,就会生成spa文件。
  • spd:文档列表。

  • spp:关键字所在位置列表。
  • spm:在DocInfo中,有一种特殊的属性,叫MVA,多值属性。 Sphinx对此属性特殊处理,需要存储在spm文件中。 检索程序启动时会把此文件加载如内存。 此属性在DocInfo对应位置存储其在此文件中的字节偏移量。

  • spk:killlist

  • spl:索引锁

通过介绍可以得知Sphinx存储的文档的属性,在0.98之前的版本是不存储的,我们是不是可以利用这些数据作为缓存使用呢,根据DocID获取文档的信息。

通过hack搜索服务添加SEARCHD_COMMAND_DOCINFO指令,客户端API添加GetDocinfo函数可以达到预期的效果。

php示例代码:

require 'sphinxapi.php';
$cl = new SphinxClient ();
$cl->SetServer();
$res = $cl->GetDocinfo(1, 'singer');
print_r($res);

结果如下:

Array
(
    [singer_id] => 1
    [singer_name] => 阿牛
    [cate_id] => 1
    [tag_ids] => Array
        (
            [0] => 110
            [1] => 114
            [2] => 127
        )
    [song_number] => 137
    [album_number] => 14
)

Patch文件 : https://gist.github.com/2251422

参考文章

Mar-30 16:56  Permalink to 如何将Sphinx配置成缓存服务器 

Sphinx索引配置文件有个wordfroms属性,wordfroms对应的是一个简单的字典文本文件,供sphinx在索引和搜索的时候替换词语使用。

Sphinx

作用

本质上,就是将一个词替换成另一个。这通常被用来将不同的词形变成一个单一的标准形式(即将词的各种形态如“walks”,“walked”,“walking”变为标准形式“walk”)。

例如:

walks>walk
walked>walk
walking>walk

也可以用来实现取词根的例外情况,因为词形字典中可以找到的词不会经过词干提取器的处理。 索引和搜索中的输入词都会利用词典做规则化。因此要使词形字典的更改起作用,需要重新索引并重启searchd。

影响

Sphnix的词形支持被设计成可以很好地支持很大的字典,仅对索引速度有微小的影响,搜索速度则完全不受影响。例如,一百万个条目的字典会使索引速度下降1.5倍。

额外的内存占用大体上等于字典文件的大小,而且字典是被多个索引共享的,即如果一个50MB的词形字典文件被10个不同的索引使用了,那么额外的searchd内存占用就是大约50MB。

格式

  • 每行包括一个源词和一个目标词,二者用大于号分隔。
  • 忽略大小写。
  • 遵循charset_table选项指定的规则。

技巧

  • 简繁转换

例如:

張>张
學>学

当搜索“张学友”和“張學友”和“張学友”能得到一样的结果.

  • 拼音纠错

例如:

张>zhang
学>xue
友>you

当搜索“张学友”和“zhang xue you”能得到一样的结果.

Mar-30 13:13  Permalink to 有关Sphinx的wordforms属性设置的小技巧