Python 爬虫之Redis数据库(干货)
- 2020 年 2 月 13 日
- 筆記
30/10
周三 晴

1 Redis简介
- Redis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。
- Redis与其他 key – value 缓存产品有以下三个特点:
- Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启后可以再次加载进行使用。
- Redis不仅仅支持简单的key-value类型(hash)的数据,同时还提供包括string(字符串)、list(链表)、set(集合)和sorted set(有序集合)。
- Redis支持数据的备份,即master-slave模式的数据备份。
- Redis是一个高性能的key-value数据库。
- Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。
- 它提供了Python,Ruby,Erlang,PHP客户端,使用很方便。
- Redis优势:
- 性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。
- 丰富的数据类型 – Redis支持二进制案例的Strings,Lists,Hashes,Sets及Ordered Sets数据类型操作。
- 原子 – Redis的所有操作都是原子性的,意思就是要么成功执行要么失败完全不执行。单个操作是原子性的。多个操作也支持事务,即原子性,通过MULTI和EXEC指令包起来。
- 丰富的特性 – Redis还支持 publish/subscribe, 通知, key 过期等等特性。

2 Redis的安装:
- 官方网站:https://redis.io
- 官方文档:https://redis.io/documentation
- 中文官网:http://www.redis.cn
- GitHub:https://github.com/antirez/redis
- 可视化管理工具:https://redisdesktop.com/download
- windows下安装地址:https://github.com/MSOpenTech/redis/releases
- 可下载:Redis-x64-3.2.100.msi 直接next按钮安装即可
- 配置文件:redis.windows-service.conf
- Liunx下的安装:(如 ubuntu)
安装命令:sudo apt-get -y install redis-server 进入命令行模式: $ redis-cli 127.0.0.1:6379> set 'name' 'zhangsan' ok 127.0.0.1:6379> get 'name' "zhangsan" 启停Redis服务: sudo /etc/init.d/redis-server start sudo /etc/init.d/redis-server stop sudo /etc/init.d/redis-server restart
- Mac下的安装:
安装命令:brew install redis 启停服务: brew services start redis brew services stop redis brew services restart redis 配置文件: /usr/local/etc/redis.conf
- redis-py的安装:(python操作redis)
pip install redis

3 Redis的操作:
- Redis的数据类型:
① String(子串类型)
set命令:设置一个键和值,键存在则只覆盖,返回ok > set 键 值 例如:>set name zhangsan get命令:获取一个键的值,返回值 > get 键 例如:>get name setnx命令:设置一个不存在的键和值(防止覆盖), > setnx 键 值 若键已存在则返回0表示失败 setex命令:设置一个指定有效期的键和值(单位秒) > setex 键 [有效时间] 值 例如: >setex color 10 red 不写有效时间则表示永久有效,等价于set setrange命令:替换子字符串 (替换长度由子子串长度决定) > setrange 键 位置 子字串 > setrange name 4 aa 将name键对应值的第4个位置开始替换 mset命令:批量设置键和值,成功则返回ok > mset 键1 值1 键2 值2 键3 值3 .... msetnx命令:批量设置不存在的键和值,成功则返回ok > msetnx 键1 值1 键2 值2 键3 值3 .... getset命令:获取原值,并设置新值 getrange命令:获取指定范围的值 >getrange 键 0,4 //获取指定0到4位置上的值 mget命令:批量获取值 >mget 键1 键2 键3.... incr命令:指定键的值做加加操作,返回加后的结果。 > 键 例如:>incr kid incrby命令:设置某个键加上指定值 > incrby 键 m //其中m可以是正整数或负整数 decr命令:指定键的值做减减操作,返回减后的结果。 > decr 键 例如:>decr kid decrby命令:设置某个键减上指定值 > decrby 键 m //其中m可以是正整数或负整数 append命令:给指定key的字符串追加value,返回新字符串值的长度 >append 键 追加字串 strlen求长度 >strlen 键名 //返回对应的值。
③ list类型(双向链表结构)
- list即可以作为“栈”也可以作为"队列"。
>lpush list1 "world" //在list1头部压入一个字串 >lpush list1 "hello" // 在list1头部压入一个字串 >lrange list1 0 -1 //获取list1中内容 0:表示开头 -1表示结尾。 >rpush list2 "world" //在list2尾部压入一个字串 >rpush list2 "hello" // 在list2尾部压入一个字串 >lrange list2 0 -1 //获取list2中内容 0:表示开头 -1表示结尾。 >linsert list2 before "hello" "there" 在key对应list的特定位置前或后添加字符串 >lset list2 1 "four" 修改指定索引位置上的值 >lrem list2 2 "hello" //删除前两个hello值 >lrem list2 -2 "hello" //删除后两个hello值 >lrem list2 0 "hello" //删除所有hello值 >ltrim mylist8 1 -1 //删除此范围外的值 >lpop list2 //从list2的头部删除元素,并返回删除元素 >rpop list2 //从list2的尾部删除元素,并返回删除元素 >rpoplpush list1 list2 //将list1的尾部一个元素移出到list2头部。并返回 >lindex list2 1 //返回list2中索引位置上的元素 >llen list2 //返回list2上长度
④ sets类型和操作:
- Redis 的 Set 是 String 类型的无序集合。集合成员是唯一的,这就意味着集合中不能出现重复的数据。
- 集合中最大的成员数为 232 – 1 (4294967295, 每个集合可存储40多亿个成员)。
>sadd myset "hello" //向myset中添加一个元素 成功返回1,失败(重复)返回0 >smembers myset //获取myset中的所有元素 >srem myset "one" //从myset中删除一个one 成功返回1,失败(不存在)返回0 >spop myset //随机返回并删除myset中的一个元素 >sdiff myset1 myset2 //返回两个集合的差集 以myset1为标准,获取myset2中不存在的。 > sinter myset2 myset3 交集 > sunion myset2 myset3 并集 > scard myset2 返回元素个数 > sismember myset2 two 判断myset2中是否包含two
⑤ 有序集合(sorted set):
- Redis 有序集合和集合一样也是string类型元素的集合,且不允许重复的成员。
- 不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。
向名称为 key 的 zset 中添加元素 member,score 用于排序。如果该元素已经存在,则根据 score 更新该元素的顺序 redis 127.0.0.1:6379> zadd myzset 1 "one" 添加 (integer) 1 redis 127.0.0.1:6379> zadd myzset 2 "two" (integer) 1 redis 127.0.0.1:6379> zadd myzset 3 "two" (integer) 0 redis 127.0.0.1:6379> zrange myzset 0 -1 withscores 查看 1) "one" 2) "1" 3) "two" 4) "3" redis 127.0.0.1:6379> zrem myzset two 删除 (integer) 1 redis 127.0.0.1:6379> zrange myzset 0 -1 withscores 查看 1) "one" 2) "1" redis 127.0.0.1:6379>
⑥ Redis常用命令:
1. 键值相关命令 >keys * //返回键(key) >keys list* //返回名以list开头的所有键(key) >exists list1 //判断键名为list1的是否存在 存在返回1, 不存在返回0 >del list1 //删除一个键(名为list1) >expire list1 10 //设置键名为list1的过期时间为10秒后 >ttl list1 //查看键名为list1的过期时间,若为-1表示以过期 >move age 1 //将键名age的转移到1数据库中。 >select 1 //表示进入到1数据库中,默认在0数据库 >persist age //移除age的过期时间(设置为过期)
15.4 Redis高级实用特性
1. 安全性:为Redis添加密码 ------------------------------- 1.进入配置文件: vi /usr/local/redis/etc/redis.conf 设置:requirepass redis的密码 2. 重启服务: # ./redis-cli shutdown 执行关闭 # ./redis-server /usr/local/redis/etc/redis.conf 启动 3. 登录(两种) # ./redis-cli 客户端命令链接服务器 >auth 密码值 //授权后方可使用 # ./redis-cli -a 密码 //连接时指定密码来进行授权 2. 主从复制 ------------------------------------------ 操作步骤: 1.先将linux虚拟机关闭,之后克隆一个。 2.启动两个虚拟机:master(主)和slave(从) 3. 在slave(从)中配置一下ip地址 # ifconfig eth0 192.168.128.229 # ping 一下看看通不通。 4. 配置从机 进入:配置文件 slaveof 192.168.128.228 6379 //配置连接主机的Redis的ip和端口 masterauth 密码 //配置连接密码 最后启动slave(从)机的Redis服务。 其他:可以通过info命令中的role属性查看自己角色是master、slave 3. 事务处理 -------------------------------------------- >multi //开启一个事务 >set age 10 //暂存指令队列 >set age 20 >exec //开始执行(提交事务) 或>discard //清空指令队列(事务回滚) 4. 乐观锁 ----------------------------------- 在事务前对被操作的属性做一个: > watch age >multi //开启一个事务(在此期间有其他修改,则此处会失败) >set age 10 //暂存指令队列 >set age 20 >exec //开始执行(提交事务) 或>discard //清空指令队列(事务回滚) 5. 持久化机制(通过修改配置文件做设置) ----------------------------------- 1. snapshotting(快照)默认方式 配置 save save 900 1 #900秒内如果超过1个key被修改,则发起快照保存 save 300 10 #300秒内容如超过10个key被修改,则发起快照保存 save 60 10000 2. Append-only file(aof方式) 配置 appendonly on 改为yes 会在bin目录下产生一个.aof的文件 关于aof的配置 appendonly yes //启用aof 持久化方式 # appendfsync always //收到写命令就立即写入磁盘,最慢,但是保证完全的持久化 appendfsync everysec //每秒钟写入磁盘一次,在性能和持久化方面做了很好的折中 # appendfsync no //完全依赖os,性能最好,持久化没保证 6. 发布及订阅消息 ---------------------- 需要开启多个会话端口 会话1:>subscribe tv1 //监听tv1频道 会话2:>subscribe tv1 tv2 //监听tv1和tv2频道 会话3: >publish tv1 消息 //向tv1频道发送一个消息 7. 使用虚拟内存 ------------------------------- 在redis配置文件中设置 vm-enabled yes #开启vm功能 vm-swap-file /tmp/redis.swap #交换出来的value保存的文件路径 vm-max-memory 1000000 #redis使用的最大内存上限 vm-page-size 32 #每个页面的大小32字节 vm-pages 134217728 #最多使用多少页面 vm-max-threads 4 #用于执行value对象换入患处的工作线程数量
15.5 Python使用Redis
import redis # host是redis主机,需要redis服务端和客户端都启动 redis默认端口是6379 r = redis.Redis(host='localhost', port=6379, decode_responses=True) # 字串操作 r.set('name', 'junxi') # key是"foo" value是"bar" 将键值对存入redis缓存 print(r['name']) print(r.get('name')) # 取出键name对应的值 print(type(r.get('name'))) # 如果键fruit不存在,那么输出是True;如果键fruit已经存在,输出是None print(r.set('fruit', 'watermelon', nx=True)) # True--不存在 print(r.setnx('fruit1', 'banana')) # fruit1不存在,输出为True #设置过期时间 r.setex("fruit2", "orange", 5) time.sleep(5) print(r.get('fruit2')) # 5秒后,取值就从orange变成None print(r.mget("fruit", "fruit1", "fruit2", "k1", "k2")) # 将目前redis缓存中的键对应的值批量取出来
redis操作list链表
r.lpush("list1", 11, 22, 33) print(r.lrange('list1', 0, -1)) r.rpush("list2", 11, 22, 33) # 表示从右向左操作 print(r.llen("list2")) # 列表长度 print(r.lrange("list2", 0, 3)) # 切片取出值,范围是索引号0-3 r.rpush("list2", 44, 55, 66) # 在列表的右边,依次添加44,55,66 print(r.llen("list2")) # 列表长度 print(r.lrange("list2", 0, -1)) # 切片取出值,范围是索引号0到-1(最后一个元素) r.lset("list2", 0, -11) # 把索引号是0的元素修改成-11 print(r.lrange("list2", 0, -1)) r.lrem("list2", "11", 1) # 将列表中左边第一次出现的"11"删除 print(r.lrange("list2", 0, -1)) r.lrem("list2", "99", -1) # 将列表中右边第一次出现的"99"删除 print(r.lrange("list2", 0, -1)) r.lrem("list2", "22", 0) # 将列表中所有的"22"删除 print(r.lrange("list2", 0, -1)) r.lpop("list2") # 删除列表最左边的元素,并且返回删除的元素 print(r.lrange("list2", 0, -1)) r.rpop("list2") # 删除列表最右边的元素,并且返回删除的元素 print(r.lrange("list2", 0, -1)) print(r.lindex("list2", 0)) # 取出索引号是0的值
redis操作set集合
#新增 r.sadd("set1", 33, 44, 55, 66) # 往集合中添加元素 print(r.scard("set1")) # 集合的长度是4 print(r.smembers("set1")) # 获取集合中所有的成员 print(r.sscan("set1")) #获取集合中所有的成员--元组形式 for i in r.sscan_iter("set1"): print(i) #差集 r.sadd("set2", 11, 22, 33) print(r.smembers("set1")) # 获取集合中所有的成员 print(r.smembers("set2")) print(r.sdiff("set1", "set2")) # 在集合set1但是不在集合set2中 print(r.sdiff("set2", "set1")) # 在集合set2但是不在集合set1中