Python 爬虫之Redis数据库(干货)

  • 2020 年 2 月 13 日
  • 笔记

30/10

周三 晴

1 Redis简介

  • Redis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。
  • Redis与其他 key – value 缓存产品有以下三个特点:
    • Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启后可以再次加载进行使用。
    • Redis不仅仅支持简单的key-value类型(hash)的数据,同时还提供包括string(字符串)、list(链表)、set(集合)和sorted set(有序集合)。
    • Redis支持数据的备份,即master-slave模式的数据备份。
  • Redis是一个高性能的key-value数据库。
    • Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。
    • 它提供了Python,Ruby,Erlang,PHP客户端,使用很方便。
  • Redis优势:
    • 性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。
    • 丰富的数据类型 – Redis支持二进制案例的Strings,Lists,Hashes,Sets及Ordered Sets数据类型操作。
    • 原子 – Redis的所有操作都是原子性的,意思就是要么成功执行要么失败完全不执行。单个操作是原子性的。多个操作也支持事务,即原子性,通过MULTI和EXEC指令包起来。
    • 丰富的特性 – Redis还支持 publish/subscribe, 通知, key 过期等等特性。

2 Redis的安装:

  • 官方网站:https://redis.io
  • 官方文档:https://redis.io/documentation
  • 中文官网:http://www.redis.cn
  • GitHub:https://github.com/antirez/redis
  • 可视化管理工具:https://redisdesktop.com/download
  • windows下安装地址:https://github.com/MSOpenTech/redis/releases
    • 可下载:Redis-x64-3.2.100.msi 直接next按钮安装即可
    • 配置文件:redis.windows-service.conf
  • Liunx下的安装:(如 ubuntu)
安装命令:sudo apt-get -y install redis-server    进入命令行模式:  $ redis-cli  127.0.0.1:6379> set 'name' 'zhangsan'  ok  127.0.0.1:6379> get 'name'  "zhangsan"    启停Redis服务:  sudo /etc/init.d/redis-server start  sudo /etc/init.d/redis-server stop  sudo /etc/init.d/redis-server restart  
  • Mac下的安装:
安装命令:brew install redis    启停服务:  brew services start redis  brew services stop redis  brew services restart redis    配置文件:  /usr/local/etc/redis.conf  
  • redis-py的安装:(python操作redis)
pip install redis

3 Redis的操作:

  • Redis的数据类型:

① String(子串类型)

   set命令:设置一个键和值,键存在则只覆盖,返回ok     > set 键  值    例如:>set name zhangsan       get命令:获取一个键的值,返回值     > get 键     例如:>get name       setnx命令:设置一个不存在的键和值(防止覆盖),     > setnx 键 值      若键已存在则返回0表示失败       setex命令:设置一个指定有效期的键和值(单位秒)     > setex 键 [有效时间] 值  例如: >setex color 10 red      不写有效时间则表示永久有效,等价于set       setrange命令:替换子字符串 (替换长度由子子串长度决定)     > setrange 键 位置 子字串     > setrange name 4 aa  将name键对应值的第4个位置开始替换       mset命令:批量设置键和值,成功则返回ok     > mset 键1 值1 键2 值2 键3 值3 ....       msetnx命令:批量设置不存在的键和值,成功则返回ok     > msetnx 键1 值1 键2 值2 键3 值3 ....       getset命令:获取原值,并设置新值       getrange命令:获取指定范围的值     >getrange 键 0,4     //获取指定0到4位置上的值       mget命令:批量获取值     >mget 键1 键2 键3....       incr命令:指定键的值做加加操作,返回加后的结果。     >  键        例如:>incr kid     incrby命令:设置某个键加上指定值     > incrby 键 m    //其中m可以是正整数或负整数       decr命令:指定键的值做减减操作,返回减后的结果。     > decr 键        例如:>decr kid     decrby命令:设置某个键减上指定值     > decrby 键 m    //其中m可以是正整数或负整数       append命令:给指定key的字符串追加value,返回新字符串值的长度     >append 键 追加字串       strlen求长度 >strlen 键名   //返回对应的值。

③ list类型(双向链表结构)

  • list即可以作为“栈”也可以作为"队列"。
 >lpush list1 "world"  //在list1头部压入一个字串   >lpush list1 "hello"  // 在list1头部压入一个字串   >lrange list1 0 -1  //获取list1中内容      0:表示开头  -1表示结尾。     >rpush list2 "world"  //在list2尾部压入一个字串   >rpush list2 "hello"  // 在list2尾部压入一个字串   >lrange list2 0 -1  //获取list2中内容      0:表示开头  -1表示结尾。     >linsert list2 before "hello" "there"   在key对应list的特定位置前或后添加字符串     >lset list2 1 "four"   修改指定索引位置上的值     >lrem list2 2 "hello"  //删除前两个hello值   >lrem list2 -2 "hello" //删除后两个hello值   >lrem list2 0 "hello"  //删除所有hello值     >ltrim mylist8 1 -1    //删除此范围外的值     >lpop list2   //从list2的头部删除元素,并返回删除元素   >rpop list2   //从list2的尾部删除元素,并返回删除元素   >rpoplpush list1 list2 //将list1的尾部一个元素移出到list2头部。并返回     >lindex list2 1 //返回list2中索引位置上的元素   >llen list2 //返回list2上长度  

④ sets类型和操作:

  • Redis 的 Set 是 String 类型的无序集合。集合成员是唯一的,这就意味着集合中不能出现重复的数据。
  • 集合中最大的成员数为 232 – 1 (4294967295, 每个集合可存储40多亿个成员)。
 >sadd myset "hello" //向myset中添加一个元素    成功返回1,失败(重复)返回0     >smembers myset //获取myset中的所有元素     >srem myset "one" //从myset中删除一个one    成功返回1,失败(不存在)返回0     >spop myset //随机返回并删除myset中的一个元素     >sdiff myset1 myset2 //返回两个集合的差集   以myset1为标准,获取myset2中不存在的。     > sinter myset2 myset3 交集     > sunion myset2 myset3 并集     > scard myset2 返回元素个数     > sismember myset2 two 判断myset2中是否包含two  

⑤ 有序集合(sorted set):

  • Redis 有序集合和集合一样也是string类型元素的集合,且不允许重复的成员。
  • 不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。
向名称为 key 的 zset 中添加元素 member,score 用于排序。如果该元素已经存在,则根据 score 更新该元素的顺序  redis 127.0.0.1:6379> zadd myzset 1 "one" 添加  (integer) 1    redis 127.0.0.1:6379> zadd myzset 2 "two"  (integer) 1    redis 127.0.0.1:6379> zadd myzset 3 "two"  (integer) 0    redis 127.0.0.1:6379> zrange myzset 0 -1 withscores  查看  1) "one"  2) "1"  3) "two"  4) "3"    redis 127.0.0.1:6379> zrem myzset two  删除  (integer) 1  redis 127.0.0.1:6379> zrange myzset 0 -1 withscores  查看  1) "one"  2) "1"    redis 127.0.0.1:6379>  

⑥ Redis常用命令:

 1. 键值相关命令   >keys *  //返回键(key)   >keys list*   //返回名以list开头的所有键(key)   >exists list1  //判断键名为list1的是否存在          存在返回1, 不存在返回0   >del list1 //删除一个键(名为list1)   >expire list1 10 //设置键名为list1的过期时间为10秒后   >ttl list1 //查看键名为list1的过期时间,若为-1表示以过期     >move age 1 //将键名age的转移到1数据库中。   >select 1 //表示进入到1数据库中,默认在0数据库     >persist age //移除age的过期时间(设置为过期)  

15.4 Redis高级实用特性

 1. 安全性:为Redis添加密码  -------------------------------     1.进入配置文件:       vi /usr/local/redis/etc/redis.conf       设置:requirepass redis的密码     2. 重启服务:      # ./redis-cli shutdown 执行关闭      # ./redis-server /usr/local/redis/etc/redis.conf  启动     3. 登录(两种)      # ./redis-cli 客户端命令链接服务器      >auth 密码值  //授权后方可使用        # ./redis-cli -a  密码 //连接时指定密码来进行授权       2. 主从复制  ------------------------------------------      操作步骤:       1.先将linux虚拟机关闭,之后克隆一个。       2.启动两个虚拟机:master(主)和slave(从)       3. 在slave(从)中配置一下ip地址          # ifconfig eth0 192.168.128.229          # ping 一下看看通不通。       4. 配置从机          进入:配置文件          slaveof  192.168.128.228 6379   //配置连接主机的Redis的ip和端口          masterauth 密码  //配置连接密码            最后启动slave(从)机的Redis服务。         其他:可以通过info命令中的role属性查看自己角色是master、slave       3. 事务处理  --------------------------------------------   >multi   //开启一个事务   >set age 10 //暂存指令队列   >set age 20   >exec    //开始执行(提交事务)   或>discard //清空指令队列(事务回滚)     4. 乐观锁  -----------------------------------    在事务前对被操作的属性做一个:   > watch age   >multi   //开启一个事务(在此期间有其他修改,则此处会失败)   >set age 10 //暂存指令队列   >set age 20   >exec    //开始执行(提交事务)   或>discard //清空指令队列(事务回滚)     5. 持久化机制(通过修改配置文件做设置)  -----------------------------------     1. snapshotting(快照)默认方式        配置    save          save 900 1 #900秒内如果超过1个key被修改,则发起快照保存          save 300 10 #300秒内容如超过10个key被修改,则发起快照保存          save 60 10000     2. Append-only file(aof方式)        配置 appendonly on 改为yes        会在bin目录下产生一个.aof的文件       关于aof的配置      appendonly yes //启用aof 持久化方式      # appendfsync always //收到写命令就立即写入磁盘,最慢,但是保证完全的持久化      appendfsync everysec //每秒钟写入磁盘一次,在性能和持久化方面做了很好的折中      # appendfsync no //完全依赖os,性能最好,持久化没保证      6.  发布及订阅消息  ----------------------      需要开启多个会话端口      会话1:>subscribe tv1      //监听tv1频道      会话2:>subscribe tv1 tv2  //监听tv1和tv2频道      会话3: >publish tv1 消息   //向tv1频道发送一个消息     7. 使用虚拟内存  -------------------------------    在redis配置文件中设置      vm-enabled yes          #开启vm功能      vm-swap-file  /tmp/redis.swap   #交换出来的value保存的文件路径      vm-max-memory 1000000   #redis使用的最大内存上限      vm-page-size 32         #每个页面的大小32字节      vm-pages 134217728      #最多使用多少页面      vm-max-threads 4        #用于执行value对象换入患处的工作线程数量  

15.5 Python使用Redis

import redis    # host是redis主机,需要redis服务端和客户端都启动 redis默认端口是6379  r = redis.Redis(host='localhost', port=6379, decode_responses=True)    # 字串操作  r.set('name', 'junxi')  # key是"foo" value是"bar" 将键值对存入redis缓存  print(r['name'])  print(r.get('name'))  # 取出键name对应的值  print(type(r.get('name')))    # 如果键fruit不存在,那么输出是True;如果键fruit已经存在,输出是None  print(r.set('fruit', 'watermelon', nx=True))    # True--不存在    print(r.setnx('fruit1', 'banana'))  # fruit1不存在,输出为True    #设置过期时间  r.setex("fruit2", "orange", 5)  time.sleep(5)  print(r.get('fruit2'))  # 5秒后,取值就从orange变成None    print(r.mget("fruit", "fruit1", "fruit2", "k1", "k2"))  # 将目前redis缓存中的键对应的值批量取出来

redis操作list链表

r.lpush("list1", 11, 22, 33)  print(r.lrange('list1', 0, -1))    r.rpush("list2", 11, 22, 33)  # 表示从右向左操作  print(r.llen("list2"))  # 列表长度  print(r.lrange("list2", 0, 3))  # 切片取出值,范围是索引号0-3    r.rpush("list2", 44, 55, 66)    # 在列表的右边,依次添加44,55,66  print(r.llen("list2"))  # 列表长度  print(r.lrange("list2", 0, -1)) # 切片取出值,范围是索引号0到-1(最后一个元素)    r.lset("list2", 0, -11)    # 把索引号是0的元素修改成-11  print(r.lrange("list2", 0, -1))    r.lrem("list2", "11", 1)    # 将列表中左边第一次出现的"11"删除  print(r.lrange("list2", 0, -1))  r.lrem("list2", "99", -1)    # 将列表中右边第一次出现的"99"删除  print(r.lrange("list2", 0, -1))  r.lrem("list2", "22", 0)    # 将列表中所有的"22"删除  print(r.lrange("list2", 0, -1))    r.lpop("list2")    # 删除列表最左边的元素,并且返回删除的元素  print(r.lrange("list2", 0, -1))  r.rpop("list2")    # 删除列表最右边的元素,并且返回删除的元素  print(r.lrange("list2", 0, -1))    print(r.lindex("list2", 0))  # 取出索引号是0的值  

redis操作set集合

#新增  r.sadd("set1", 33, 44, 55, 66)  # 往集合中添加元素  print(r.scard("set1"))  # 集合的长度是4  print(r.smembers("set1"))   # 获取集合中所有的成员    print(r.sscan("set1")) #获取集合中所有的成员--元组形式    for i in r.sscan_iter("set1"):      print(i)    #差集  r.sadd("set2", 11, 22, 33)  print(r.smembers("set1"))   # 获取集合中所有的成员  print(r.smembers("set2"))  print(r.sdiff("set1", "set2"))   # 在集合set1但是不在集合set2中  print(r.sdiff("set2", "set1"))   # 在集合set2但是不在集合set1中