今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加
到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是'%E4%B8%BD%E6%B1%9F',因此需
要做一个转换。这里我们就用到了模块urllib。
>>> import urllib
>>> data = '丽江'
>>> print data
丽江
>>> data
'\xe4\xb8\xbd\xe6\xb1\x9f'
>>> urllib.quote
(data)
'%E4%B8%BD%E6%B1%9F'
那我们想转回去呢?
>>> urllib.unquote('%E4%B8%BD%E6%B1%9F')
'\xe4\xb8\xbd\xe6\xb1\x9f'
>>> print urllib.unquote
('%E4%B8%BD%E6%B1%9F')
丽江
细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非'%E4%B8%BD%E6%B1%9F',其实是编码问题。百度的是gbk,其他
的一般网站比如google就是utf8的。所以可以用下列语句实现。
>>> import sys,urllib
>>> s = '丽江'
>>> urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))
'%C0%F6%BD%AD'
>>> urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))
'%E4%B8%BD%E6%B1%9F'
>>>
分享到:
相关推荐
主要介绍了python实现中文转换url编码的方法,结合实例形式分析了Python针对中文的gbk与utf-8编码转换的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
1、url编码 对字符串编码用urllib.parse包下的quote(string, safe=’/’, encoding=None, errors=None)方法。 对json格式的参数名和值编码,用urllib.parse包下的 urlencode(query, doseq=False, safe=”, encoding=...
有json格式转换,base64编码转换、url编码转换,16进制编码转换、md5加密
今天小编就为大家分享一篇python字符串与url编码的转换实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
今天小编就为大家分享一篇python3处理含有中文的url方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
URL缩短和转换器应用程序专门使用Python编程语言构建。该应用程序是一个旨在缩短 URL 链接的工具。它有双重用途,允许用户缩短 URL 并将 TinyURL 转换为其原始格式。事实证明,此功能在与他人共享链接时特别有用,...
本文实例讲述了python实现文件路径和url相互转换的方法。分享给大家供大家参考。具体实现方法如下: import urllib pathname = 'path/to/file/or/folder/' ... 您可能感兴趣的文章:python字符串与url编码的
不过,也遇到些问题:在线转换效率低(搜索占去了2/3的时间)、两款工具存在一些小问题,比如burp中涉及中文往往显示乱码。 直到使用python来作为我日常编码转换工具…… 开启py转换之旅 url编码 url编码是一种...
今天小编就为大家分享一篇Python爬虫:url中带字典列表参数的编码转换方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
支持HTML属性,URL,Base64,MD5,Punycode,文字反向及自定义编码等的编码转换器
如何获取一个页面内所有URL链接?在Python中可以使用urllib对...Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful So
esmre ,正则表达式的加速器。...▪ xpinyin ,将汉字转换为拼音的函数库。 ▪ pangu.py ,调整对中日韩文字当中的字母、数字间距。 ▪ pyfiglet , Python 写的 figlet 程序,使用字符组成 A。。。。
python2.7在window上的编码确实是个坑 解决如下 如果是个字典的话要先将其转成字符串 导入json库 然后 这么输出(json.dumps(data).decode(“unicode-escape”)) 整个代码demo # -*- coding: UTF-8 -*- #小猪短租...
对于中文的参数如果不进行编码的话,python的urllib2直接处理会报错,我们可以先将中文转换成utf-8编码,然后使用urllib2.quote方法对参数进行url编码后传递。 content = u'你好 jb51.net' content = content....
escape() 方法:采用ISO Latin字符集对指定的字符串进行编码。所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在字符集表里面的编码的16进制数字)。比如,空格...
包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。【适用人群】:适用...
需要注意的是,如果遇到GBK2312等编码的,在decode和encode时,一律使用GBK进行编码或者解码,这是因为GBK是其他GBK编码的超集,向下兼容所有的GBK编码。 下面是一个例子: #coding...
中文领域: 指的是提取境内地址的经纬度,的主要调用的是百度...由于我们是要从地址转换经纬度,因此看地理编码就可以了。 官网给出了服务文档(千万要看),因为爬取地址时需要提供url,这个url必须和官方提供的一致
对于中文的参数如果不进行编码的话,python的urllib2直接处理会报错,我们可以先将中文转换成utf- 8编码,然后使用urllib2.quote方法对参数进行url编码后传递。 content = u'你好 sharejs.com' content = content....