python进阶-IO编程

python学习笔记，IO编程部分

Intro

IO在计算机中指Input/Output，也就是输入和输出。由于程序和运行时数据是在内存中驻留，由CPU这个超快的计算核心来执行，涉及到数据交换的地方，通常是磁盘、网络等，就需要IO接口。

IO编程中，Stream（流）是一个很重要的概念，可以把流想象成一个水管，数据就是水管里的水，但是只能单向流动。Input Stream就是数据从外面（磁盘、网络）流进内存，Output Stream就是数据从内存流到外面去。对于浏览网页来说，浏览器和新浪服务器之间至少需要建立两根水管，才可以既能发数据，又能收数据。

由于CPU输出和磁盘接收的速度不同，IO被分为两种：

同步IO，CPU等待数据完全写入磁盘再继续执行后续代码
异步IO，CPU不等待数据的输入，转而处理别的事物，磁盘接收完毕再通知CPU

再异步IO中，按照通知CPU的方式又可分为：

回调模式
轮询模式

显然异步IO效率要高于同步IO，但复杂度也远远高于同步IO，在此我们先仅讨论同步IO。

操作IO的能力都是由操作系统提供的，每一种编程语言都会把操作系统提供as的低级C接口封装起来方便使用，Python也不例外。

文件读写

读写文件是最常见的IO操作。Python内置了读写文件的函数，用法和C是兼容的。

读写文件前，我们先必须了解一下，在磁盘上读写文件的功能都是由操作系统提供的，现代操作系统不允许普通的程序直接操作磁盘，所以，读写文件就是请求操作系统打开一个文件对象（通常称为文件描述符），然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）。

读文件

要以读文件的模式打开一个文件对象，使用Python内置的open()函数，传入文件名和标示符：

1	>>> f = open('E:/Programing/Python/Hello/test.txt', 'r')

标示符’r’表示读

如果文件不存在，open()函数就会抛出一个IOError的错误，并且给出错误码和详细的信息告诉你文件不存在：

>>> f=open('E:/Programing/Python/Hello/test.txt', 'r')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
FileNotFoundError: [Errno 2] No such file or directory: 'E:/Programing/Python/Hello/test.txt'

如果文件打开成功，接下来，调用read()方法可以一次读取文件的全部内容，Python把内容读到内存，用一个str对象表示：

1 2	>>> f.read() 'Hello, world!'

最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开的文件数量也是有限的：

1	>>> f.close()

由于文件读写时都有可能产生IOError，一旦出错，后面的f.close()就不会调用。所以，为了保证无论是否出错都能正确地关闭文件，我们可以使用try ... finally来实现：

try:
    f = open('/path/to/file', 'r')
    print(f.read())
finally:
    if f:
        f.close()

但可以使用python基础 - Ender (enderxiao.top)中提到的with关键字实现一个上下文管理器来更方便的操作文件：

1 2	with open('/path/to/file', 'r') as f: print(f.read())

调用read()会一次性读取文件的全部内容，如果文件有10G，内存就爆了，所以，要保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容。另外，调用readline()可以每次读取一行内容，调用readlines()一次读取所有内容并按行返回list。因此，要根据需要决定怎么调用。

如果文件很小，read()一次性读取最方便；如果不能确定文件大小，反复调用read(size)比较保险；如果是配置文件，调用readlines()最方便：

1 2	for line in f.readlines(): print(line.strip()) # 把末尾的'\n'删掉

file-like Object

在python进阶-OOP - Ender (enderxiao.top)的继承与多态中提到过鸭子类型，像open()函数返回的这种有个read()方法的对象，在Python中统称为file-like Object。除了file外，还可以是内存的字节流，网络流，自定义流等等。file-like Object不要求从特定类继承，只要写个read()方法就行。

StringIO就是在内存中创建的file-like Object，常用作临时缓冲。

二进制文件

前面讲的默认都是读取文本文件，并且是UTF-8编码的文本文件。要读取二进制文件，比如图片、视频等等，用'rb'模式打开文件即可：

1
2
3

>>> f = open('E:/Programing/Python/Hello/test.png', 'rb')
>>> f.read()
b'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节

字符编码

要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数，例如，读取GBK编码的文件：

1
2
3

>>> f = open('E:/Programing/Python/Hello/gbk.txt', 'r', encoding='utf-8')
>>> f.read()
'测试'

遇到有些编码不规范的文件，你可能会遇到UnicodeDecodeError，因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况，open()函数还接收一个errors参数，表示如果遇到编码错误后如何处理。最简单的方式是直接忽略：

1	>>> f = open('E:/Programing/Python/Hello/gbk.txt', 'r', encoding='gbk', errors='ignore')

写文件

写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件：

>>> f = open('E:/Programing/Python/Hello/test.txt', 'w')
>>> f.write('Hello, world!')  # 将返回成功写入的字符数
13
>>> f.close()

你可以反复调用write()来写入文件，但是务必要调用f.close()来关闭文件。当我们写文件时，操作系统往往不会立刻把数据写入磁盘，而是放到内存缓存起来，空闲的时候再慢慢写入。只有调用close()方法时，操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘，剩下的丢失了。所以，还是用with语句来得保险：

1 2	with open('E:/Programing/Python/Hello/test.txt', 'w') as f: f.write('Hello, world!')

写入特定编码的的文本，则在open()中传入encoding参数

以'w'模式写入文件时，如果文件已存在，会直接覆盖（相当于删掉后新写入一个文件），如果需要追加，则可以传入'a'以追加（append）模式写入。

所有模式的定义及含义可以参考Python的官网文档：

python官方文档

https://docs.python.org/3/library/functions.html#open

read只能读一次

还需主义一点：

>>> f = open('E:/Programing/Python/Hello/test.txt', 'r')
>>> f.read()
'!Hello, world!'
>>> f.read()
''
>>> f.read()
''

如此发现，文件打开一次后只能读取一次，原因是文件对象是一个迭代器

有限长度的迭代器在被list()函数转换成列表或者for循环完全遍历等方式将数据完全获取之后将失效，再次试图访问数据得到的是空值。也就是说不能重复使用，包括赋值后指向这个迭代器的其他变量也将无法使用。


it1 = iter([0, 1, 2, 3, 4, 5])

it2 = it1 # 使it2指向it1指向的内存地址存的迭代器

for i in it1:
    print(i, end=' ')

print('\n----分割线----')  

print('it1:', list(it1))

print('it2:', list(it2))

# 输出结果如下：

# 0 1 2 3 4 5 

# ----分割线----

# it1: []

# it2: []

String IO与BytesIO

StringIO

有时候数据读写的对象也不一定是文件，也可能在内存中读写，StringIO就是在内存中读写str。

只要创建一个StringIO对象后，就能像文件一样写入了，然后再使用getvalue()获取写入后的str：

>>> from io import StringIO
>>> f = StringIO()
>>> f.write('hello')
5
>>> f.write(' ')
1
>>> f.write('world!')
6
>>> print(f.getvalue())
hello world!

要读StringIO，可以用一个str初始化StringIO，然后，像文件一样读取：

>>> from io import StringIO
>>> f = StringIO('Hello!\nHi!\nGoodbye!')
>>> while True:
...     s = f.readline()
...     if s == '':
...         break
...     print(s.strip())
...
Hello!
Hi!
Goodbye!

BtesIO

StringIO操作的只能是str，如果要操作二进制数据，就需要使用BytesIO。BytesIO实现了在内存中读写bytes，我们创建一个BytesIO，然后写入一些bytes：

>>> from io import BytesIO
>>> f = BytesIO()
>>> f.write('中文'.encode('utf-8'))
6
>>> print(f.getvalue())
b'\xe4\xb8\xad\xe6\x96\x87'

请注意，写入的不是str，而是经过UTF-8编码的bytes。

和StringIO类似，可以用一个bytes初始化BytesIO，然后，像读文件一样读取：

>>> from io import BytesIO
>>> f = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')
>>> f.read()
b'\xe4\xb8\xad\xe6\x96\x87'

注意事项

# StringIO和BytesIO

# stringIO 比如说，这时候，你需要对获取到的数据进行操作，但是你并不想把数据写到本地硬盘上，这时候你就可以用stringIO
from io import StringIO
from io import BytesIO
def outputstring():
    return 'string \nfrom \noutputstring \nfunction'

s = outputstring()

# 将函数返回的数据在内存中读
sio = StringIO(s)
# 可以用StringIO本身的方法
print(sio.getvalue())
# 也可以用file-like object的方法
s = sio.readlines()
for i in s:
    print(i.strip())
    # Python strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。
    注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。


# 将函数返回的数据在内存中写
s = outputstring()
sio = StringIO()
sio.write(s)
# 可以用StringIO本身的方法查看
s=sio.getvalue()
print(s)

# 如果你用file-like object的方法查看的时候，你会发现数据为空

sio = StringIO()
sio.write(s)
for i in sio.readlines():
    print(i.strip())
    
# 原因是StringIO的写入为追加写入，初始化后，文件指针位置为0，即在开头位置。
# 但是使用追加写入后，指针则来到了文件结尾，即最后字符写入的位置。

# 这时候我们需要修改下文件的指针位置
# 我们发现可以打印出内容了
sio = StringIO()
sio.write(s)
sio.seek(0,0)
print(sio.tell())
for i in sio.readlines():
    print(i.strip())

# 这就涉及到了两个方法seek 和 tell
# tell 方法获取当前文件读取指针的位置
# seek 方法，用于移动文件读写指针到指定位置,有两个参数，第一个offset: 偏移量，需要向前或向后的字节数，正为向后，负为向前；第二个whence: 可选值，默认为0，表示文件开头，1表示相对于当前的位置，2表示文件末尾
# 用seek方法时，需注意，如果你打开的文件没有用'b'的方式打开，则offset无法使用负值哦



# stringIO 只能操作str，如果要操作二进制数据，就需要用到BytesIO
# 上面的sio无法用seek从当前位置向前移动，这时候，我们用'b'的方式写入数据，就可以向前移动了
bio = BytesIO()
bio.write(s.encode('utf-8'))
print(bio.getvalue())
bio.seek(-36,1)
print(bio.tell())
for i in bio.readlines():
    print(i.strip())

操作文件和目录

Python内置的os模块可以直接调用操作系统提供的接口函数。

下面我们来看看os模块的基本功能：

1
2
3

>>> import os
>>> os.name # 操作系统类型
'nt'

如果是nt，说明系统是windows，如果posix说明系统是Linux、Unix或Mac OS X。

要获取详细的系统信息，可以调用uname()函数，但uname()函数在windows下不可用，原因是windows并未提供相关接口，以下是在Linux上运行的结果：

1
2

>>> os.uname()
posix.uname_result(sysname='Darwin', nodename='MichaelMacPro.local', release='14.3.0', version='Darwin Kernel Version 14.3.0: Mon Mar 23 11:59:05 PDT 2015; root:xnu-2782.20.48~5/RELEASE_X86_64', machine='x86_64')

要获取某个环境变量的值，可以调用os.environ.get('key')：

>>> os.environ.get('PATH')
'/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/opt/X11/bin:/usr/local/mysql/bin'
>>> os.environ.get('x', 'default')
'default'

操作文件和目录

操作文件和目录的函数一部分放在os模块中，一部分放在os.path模块中，这一点要注意一下。查看、创建和删除目录可以这么调用：

# 查看当前目录的绝对路径:
>>> os.path.abspath('.')
'C:\\Users\\ASUS\\Links'
# 在某个目录下创建一个新目录，首先把新目录的完整路径表示出来:
>>> os.path.join('/Users/michael', 'testdir')
'C:/Users/ASUS/Links\\test'
# 然后创建一个目录:
>>> os.mkdir('C:/Users/ASUS/Links/test')
# 删掉一个目录:
>>> os.rmdir('C:/Users/ASUS/Links/test')

把两个路径合成一个时，不要直接拼字符串，而要通过os.path.join()函数，这样可以正确处理不同操作系统的路径分隔符。在Linux/Unix/Mac下，os.path.join()返回这样的字符串：

1	part-1/part-2

而Windows下会返回这样的字符串：

1	part-1\part-2

同样的道理，要拆分路径时，也不要直接去拆字符串，而要通过os.path.split()函数，这样可以把一个路径拆分为两部分，后一部分总是最后级别的目录或文件名：

1 2	>>> os.path.split('C:/Users/ASUS/Links/test.txt') ('C:/Users/ASUS/Links', 'test.txt')

os.path.splitext()可以直接让你得到文件扩展名，很多时候非常方便：

1 2	>>> os.path.splitext('C:/Users/ASUS/test.txt') ('C:/Users/ASUS/test', '.txt')

这些合并、拆分路径的函数并不要求目录和文件要真实存在，它们只对字符串进行操作。

文件操作使用下面的函数。假定当前目录下有一个test.txt文件：

# 对文件重命名:
>>> os.rename('test.txt', 'test.py')
# 删掉文件:
>>> os.remove('test.py')

但是os模块中不存在复制文件的操作，原因是赋值文件并非由操作系统提供的系统调用。理论上讲，我们通过上一节的读写文件可以完成文件复制，只不过要多写很多代码。

但shutil模块提供了copyfile()的函数，你还可以在shutil模块中找到很多实用函数，它们可以看做是os模块的补充。

最后看看如何利用Python的特性来过滤文件。比如我们要列出当前目录下的所有目录，只需要一行代码：

1 2	>>> [x for x in os.listdir('.') if os.path.isdir(x)] ['.lein', '.local', '.m2', '.npm', '.ssh', '.Trash', '.vim', 'Applications', 'Desktop', ...]

要列出所有的.py文件，也只需一行代码：

1 2	>>> [x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py'] ['apis.py', 'config.py', 'models.py', 'pymonitor.py', 'test_db.py', 'urls.py', 'wsgiapp.py']

练习

利用os模块编写一个能实现dir -l输出的程序。

# Hello.py

import os
import time


class FileInfo(object):
    def __init__(self, name):
        self._name = name
        fileStat = os.stat(name)
        self._mode = fileStat.st_mode
        self._linkNum = fileStat.st_nlink
        self._owner = fileStat.st_uid
        self._ownerGroup = fileStat.st_gid
        self._size = fileStat.st_size
        self._lastEditTime = time.strftime("%b %d %H:%M", time.localtime(fileStat.st_mtime))

    def __str__(self):
        info = r'%s %s %s %s %s %s %s' % (self._mode, self._linkNum, self._owner, self._ownerGroup, self._size, self._lastEditTime, self._name)
        return info


if __name__ == '__main__':
    for name in os.listdir('.'):
        if name[0] == '.':
            continue
        FileNow = FileInfo(name)
        print(FileNow)

编写一个程序，能在当前目录以及当前目录的所有子目录下查找文件名包含指定字符串的文件，并打印出相对路径。

# Hello.py

import os


def findFile(targetFileName, path='.'):
    foundFile = []
    files = [os.path.join(path, x) for x in os.listdir(path) if os.path.isfile(os.path.join(path, x)) and targetFileName in os.path.split(x)[1]]  # 路径是文件且文件名包含关键字
    dirs = [x for x in os.listdir(path) if os.path.isdir(os.path.join(path, x))]
    for d in dirs:
        subFound = findFile(targetFileName, os.path.join(path, d))
        foundFile += subFound
    foundFile += files
    return foundFile


if __name__ == '__main__':
    path = input('输入查找路径')
    targetFileName = input('输入查找关键字')
    foundPath = findFile(targetFileName, path)
    for pathName in foundPath:
        print(pathName)

序列化

将变量从内存中变成可存储或传输的过程称之为序列化在，Python中叫pickling，在其他语言中也被称之为serialization，marshalling，flattening等等，都是一个意思。

序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。

反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。

Python提供了pickle模块来实现序列化。

可以使用如下方法将一个对象序列化并写入文件：

>>> import pickle
>>> d = dict(name='Bob', age=20, score=88)
>>> pickle.dumps(d)
b'\x80\x03}q\x00(X\x03\x00\x00\x00ageq\x01K\x14X\x05\x00\x00\x00scoreq\x02KXX\x04\x00\x00\x00nameq\x03X\x03\x00\x00\x00Bobq\x04u.'

pickle.dumps()方法把任意对象序列化成一个bytes，然后，就可以把这个bytes写入文件。或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like Object：

1
2
3

>>> f = open('dump.txt', 'wb')
>>> pickle.dump(d, f)
>>> f.close()

看看写入的dump.txt文件，一堆乱七八糟的内容，这些都是Python保存的对象内部信息。

1	€? }??name攲Bob攲age擪?score擪Xu.

当我们要把对象从磁盘读到内存时，可以先把内容读到一个bytes，然后用pickle.loads()方法反序列化出对象，也可以直接用pickle.load()方法从一个file-like Object中直接反序列化出对象。我们打开另一个Python命令行来反序列化刚才保存的对象：

>>> f = open('dump.txt', 'rb')
>>> d = pickle.load(f)
>>> f.close()
>>> d
{'name': 'Bob', 'age': 20, 'score': 88}

Pickle的问题和所有其他编程语言特有的序列化问题一样，就是它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用Pickle保存那些不重要的数据，不能成功地反序列化也没关系。

JSON

如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。

JSON和Python内置的数据类型对应如下：

JSON类型	Python类型
{}	dict
[]	list
“string”	str
1234.56	int或float
true/false	True/False
null	None

python中的json模块提供了对象到JSON的格式转换：

>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'

dumps()方法返回一个str，内容就是标准的JSON。类似的，dump()方法可以直接把JSON写入一个file-like Object。

要把JSON反序列化为Python对象，用loads()或者对应的load()方法，前者把JSON的字符串反序列化，后者从file-like Object中读取字符串并反序列化：

1
2
3

>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{'age': 20, 'score': 88, 'name': 'Bob'}

JSON标准规定JSON编码是UTF-8，因此在python中进行str与JSON的转换是没问题的

但当我们需要用JSON直接序列化类时，直接调用json.dump会报TypeError

原因是默认情况下，dumps()方法不知道如何将Student实例变为一个JSON的{}对象。

此时我们需要告诉方法要怎样进行转换，也就是通过dumps()方法的default参数，传入一个映射方法：

def student2dict(std):
    return {
        'name': std.name,
        'age': std.age,
        'score': std.score
    }


print(json.dumps(s, default=student2dict))
# {"age": 20, "name": "Bob", "score": 88}

不过，下次如果遇到一个Teacher类的实例，照样无法序列化为JSON。我们可以把任意class的实例变为dict：

1	print(json.dumps(s, default=lambda obj: obj.__dict__))

因为通常class的实例都有一个__dict__属性，它就是一个dict，用来存储实例变量。也有少数例外，比如定义了__slots__的class。

同样的道理，如果我们要把JSON反序列化为一个Student对象实例，loads()方法首先转换出一个dict对象，然后，我们传入的object_hook函数负责把dict转换为Student实例：

1 2	def dict2student(d): return Student(d['name'], d['age'], d['score'])

运行结果如下：

1
2
3

>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> print(json.loads(json_str, object_hook=dict2student))
<__main__.Student object at 0x10cd3c190>

打印出的是反序列化的Student实例对象。

json.dumps的参数列表参考如下链接：

dumps方法参数

https://docs.python.org/3/library/json.html#json.dumps

例如其中一个参数ensure_ascii：

1	If ``ensure_ascii`` is false, then the return value can contain non-ASCII characters if they appear in strings contained in ``obj``. Otherwise, all such characters are escaped in JSON strings.

也就是如果开启，那么对象中包含的非ASCII字符将被直接保存而不进行转义