有很多人会选择用Pyhton来做爬虫,这个编程语言很多人反映非常容易上手,而且代码也很整洁。黑洞代理今天要给Python的使用者介绍几个使用小技巧。
1、字典推导(Dictionary comprehensions)和集合推导(Set comprehensions)
大多数的Python程序员都知道且使用过列表推导(list comprehensions)。如果你对list comprehensions概念不是很熟悉——一个list comprehension就是一个更简短、简洁的创建一个list的方法。
自从python 3.1 (甚至是Python 2.7)起,我们可以用同样的语法来创建集合和字典表:
在第一个例子里,我们以some_list为基础,创建了一个具有不重复元素的集合,而且集合里只包含偶数。而在字典表的例子里,我们创建了一个key是不重复的1到10之间的整数,value是布尔型,用来指示key是否是偶数。
这里另外一个值得注意的事情是集合的字面量表示法。我们可以简单的用这种方法创建一个集合:
而不需要使用内置函数set()。
2、创建一次性的、快速的小型web服务
有时候,我们需要在两台机器或服务之间做一些简便的、很基础的RPC之类的交互。我们希望用一种简单的方式使用B程序调用A程序里的一个方法——有时是在另一台机器上。仅内部使用。
并不鼓励将这里介绍的方法用在非内部的、一次性的编程中。我们可以使用一种叫做XML-RPC的协议 (相对应的是这个Python库),来做这种事情。
下面是一个使用SimpleXMLRPCServer模块建立一个快速的小的文件读取服务器的例子:
客户端:
我们这样就得到了一个远程文件读取工具,没有外部的依赖,只有几句代码(当然,没有任何安全措施,所以只可以在家里这样做)。
3、漂亮的打印出JSON
JSON是一种非常好的数据序列化的形式,被如今的各种API和web service大量的使用。使用python内置的json处理,可以使JSON串具有一定的可读性,但当遇到大型数据时,它表现成一个很长的、连续的一行时,人的肉眼就很难观看了。
为了能让JSON数据表现的更友好,我们可以使用indent参数来输出漂亮的JSON。当在控制台交互式编程或做日志时,这尤其有用:
同样,使用内置的pprint模块,也可以让其它任何东西打印输出的更漂亮。
4、计数时使用Counter计数对象
这听起来显而易见,但经常被人忘记。对于大多数程序员来说,数一个东西是一项很常见的任务,而且在大多数情况下并不是很有挑战性的事情——这里有几种方法能更简单的完成这种任务。
Python的collections类库里有个内置的dict类的子类,是专门来干这种事情的:
以上这些技巧能够帮助到大家再日常的编程中提高效率,这样爬虫准备的时间就可以减少了,加上代理IP池的帮助,网络爬虫工作如虎添翼。
相关文章内容简介
1 Pyhton的使用小技巧分享
有很多人会选择用Pyhton来做爬虫,这个编程语言很多人反映非常容易上手,而且代码也很整洁。黑洞代理今天要给Python的使用者介绍几个使用小技巧。 1、字典推导(Dictionary∵comprehensions)和集合推导(Set∵comprehensions) 大多数的Python程序员都知道且使用过列表推导(list∵comprehensions)。如果你对list∵ comprehensions概念不是很熟悉——一个list∵comprehension就... [阅读全文]
最新标签
推荐阅读
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户