转载

完全理解Python迭代对象、迭代器、生成器

在了解Python的数据结构时，容器(container)、可迭代对象(iterable)、迭代器(iterator)、生成器(generator)、列表/集合/字典推导式(list,set,dict comprehension)众多概念参杂在一起，难免让初学者一头雾水，我将用一篇文章试图将这些概念以及它们之间的关系捋清楚。

容器(container)

容器是一种把多个元素组织在一起的数据结构，容器中的元素可以逐个地迭代获取，可以用 in , not in 关键字判断元素是否包含在容器中。通常这类数据结构把所有的元素存储在内存中（也有一些特列并不是所有的元素都放在内存）在Python中，常见的容器对象有：

list, deque, ....
set, frozensets, ....
dict, defaultdict, OrderedDict, Counter, ....
tuple, namedtuple, …
str

容器比较容易理解，因为你就可以把它看作是一个盒子、一栋房子、一个柜子，里面可以塞任何东西。从技术角度来说，当它可以用来询问某个元素是否包含在其中时，那么这个对象就可以认为是一个容器，比如 list，set，tuples都是容器对象：

>>> assert 1 in [1, 2, 3]      # lists >>> assert 4 not in [1, 2, 3] >>> assert 1 in {1, 2, 3}      # sets >>> assert 4 not in {1, 2, 3} >>> assert 1 in (1, 2, 3)      # tuples >>> assert 4 not in (1, 2, 3)

询问某元素是否在dict中用dict的中key：

>>> d = {1: 'foo', 2: 'bar', 3: 'qux'} >>> assert 1 in d >>> assert 'foo' not in d  # 'foo' 不是dict中的元素

询问某substring是否在string中：

>>> s = 'foobar' >>> assert 'b' in s >>> assert 'x' not in s >>> assert 'foo' in s

尽管绝大多数容器都提供了某种方式来获取其中的每一个元素，但这并不是容器本身提供的能力，而是 可迭代对象 赋予了容器这种能力，当然并不是所有的容器都是可迭代的，比如： Bloom filter ，虽然Bloom filter可以用来检测某个元素是否包含在容器中，但是并不能从容器中获取其中的每一个值，因为Bloom filter压根就没把元素存储在容器中，而是通过一个散列函数映射成一个值保存在数组中。

可迭代对象(iterable)

刚才说过，很多容器都是可迭代对象，此外还有更多的对象同样也是可迭代对象，比如处于打开状态的files，sockets等等。但凡是可以返回一个 迭代器 的对象都可称之为可迭代对象，听起来可能有点困惑，没关系，可迭代对象与迭代器有一个非常重要的区别。先看一个例子：

>>> x = [1, 2, 3] >>> y = iter(x) >>> z = iter(x) >>> next(y) 1 >>> next(y) 2 >>> next(z) 1 >>> type(x) <class 'list'> >>> type(y) <class 'list_iterator'>

这里 x 是一个可迭代对象，可迭代对象和容器一样是一种通俗的叫法，并不是指某种具体的数据类型，list是可迭代对象，dict是可迭代对象，set也是可迭代对象。 y 和 z 是两个独立的迭代器，迭代器内部持有一个状态，该状态用于记录当前迭代所在的位置，以方便下次迭代的时候获取正确的元素。迭代器有一种具体的迭代器类型，比如 list_iterator ， set_iterator 。可迭代对象实现了 __iter__ 和 __next__ 方法（python2中是 next 方法，python3是 __next__ 方法），这两个方法对应内置函数 iter() 和 next() 。 __iter__ 方法返回可迭代对象本身，这使得他既是一个可迭代对象同时也是一个迭代器。

当运行代码：

x = [1, 2, 3] for elem in x:     ...

实际执行情况是：

反编译该段代码，你可以看到解释器显示地调用 GET_ITER 指令，相当于调用 iter(x) ， FOR_ITER 指令就是调用 next() 方法，不断地获取迭代器中的下一个元素，但是你没法直接从指令中看出来，因为他被解释器优化过了。

>>> import dis >>> x = [1, 2, 3] >>> dis.dis('for _ in x: pass')   1           0 SETUP_LOOP              14 (to 17)               3 LOAD_NAME                0 (x)               6 GET_ITER         >>    7 FOR_ITER                 6 (to 16)              10 STORE_NAME               1 (_)              13 JUMP_ABSOLUTE            7         >>   16 POP_BLOCK         >>   17 LOAD_CONST               0 (None)              20 RETURN_VALUE

迭代器(iterator)

那么什么迭代器呢？它是一个带状态的对象，他能在你调用 next() 方法的时候返回容器中的下一个值，任何实现了 __next__() （python2中实现 next() ）方法的对象都是迭代器，至于它是如何实现的这并不重要。

所以，迭代器就是实现了工厂模式的对象，它在你每次你询问要下一个值的时候给你返回。有很多关于迭代器的例子，比如 itertools 函数返回的都是迭代器对象。

生成无限序列：

>>> from itertools import count >>> counter = count(start=13) >>> next(counter) 13 >>> next(counter) 14

从一个有限序列中生成无限序列：

>>> from itertools import cycle >>> colors = cycle(['red', 'white', 'blue']) >>> next(colors) 'red' >>> next(colors) 'white' >>> next(colors) 'blue' >>> next(colors) 'red'

从无限的序列中生成有限序列：

>>> from itertools import islice >>> colors = cycle(['red', 'white', 'blue'])  # infinite >>> limited = islice(colors, 0, 4)            # finite >>> for x in limited:                          ...     print(x) red white blue red

为了更直观地感受迭代器内部的执行过程，我们自定义一个迭代器，以斐波那契数列为例：

class Fib:     def __init__(self):         self.prev = 0         self.curr = 1      def __iter__(self):         return self      def __next__(self):         value = self.curr         self.curr += self.prev         self.prev = value         return value  >>> f = Fib() >>> list(islice(f, 0, 10)) [1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

Fib既是一个可迭代对象（因为它实现了 __iter__ 方法），又是一个迭代器（因为实现了 __next__ 方法）。实例变量 prev 和 curr 用户维护迭代器内部的状态。每次调用 next() 方法的时候做两件事：

为下一次调用 next() 方法修改状态
为当前这次调用生成返回结果

迭代器就像一个懒加载的工厂，等到有人需要的时候才给它生成值返回，没调用的时候就处于休眠状态等待下一次调用。

生成器(generator)

生成器算得上是Python语言中最吸引人的特性之一，生成器其实是一种特殊的迭代器，不过这种迭代器更加优雅。它不需要再像上面的类一样写 __iter__() 和 __next__() 方法了，只需要一个 yiled 关键字。生成器有如下特征是它一定也是迭代器（反之不成立），因此任何生成器也是以一种懒加载的模式生成值。用生成器来实现斐波那契数列的例子是：

def fib():     prev, curr = 0, 1     while True:         yield curr         prev, curr = curr, curr + prev  >>> f = fib() >>> list(islice(f, 0, 10)) [1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

fib 就是一个普通的python函数，它特需的地方在于函数体中没有 return 关键字，函数的返回值是一个生成器对象。当执行 f=fib() 返回的是一个生成器对象，此时函数体中的代码并不会执行，只有显示或隐示地调用next的时候才会真正执行里面的代码。

生成器在Python中是一个非常强大的编程结构，可以用更少地中间变量些流式代码，此外，相比其它容器对象它更能节省内存和CPU，当然它可以用更少的代码来实现相似的功能。现在就可以动手重构你的代码了，但凡看到类似：

def something():     result = []     for ... in ...:         result.append(x)     return result

都可以用生成器函数来替换：

def iter_something():     for ... in ...:         yield x

原文 http://foofish.net/blog/109/iterators-vs-generators

正文到此结束

所属分类：编程技术

本文标签： 编译实例文章初学者 python App http 代码 src 数据组织 UI list tar value key
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

完全理解Python迭代对象、迭代器、生成器

容器(container)

可迭代对象(iterable)

迭代器(iterator)

生成器(generator)

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流