Python爬蟲實戰案例：取喜馬拉雅音頻數據詳解

2020 年 12 月 5 日
筆記
12月

前言

喜馬拉雅是專業的音頻分享平台，彙集了有聲小說,有聲讀物,有聲書,FM電台,兒童睡前故事,相聲小品,鬼故事等數億條音頻，我最喜歡聽民間故事和德雲社相聲集，你呢？

今天帶大家爬取喜馬拉雅音頻數據，一起期待吧！！

這個案例的視頻地址在這裡

//v.douyu.com/show/a2JEMJj3e3mMNxml

項目目標

爬取喜馬拉雅音頻數據

受害者地址

//www.ximalaya.com/

本文知識點：

1、系統分析網頁性質
2、多層數據解析
3、海量音頻數據保存

環境：

python 3.6
pycharm
requests
parsel

思路：(爬蟲案例)

1.確定數據所在的鏈接地址(url)
2.通過代碼發送url地址的請求
3.解析數據(要的, 篩選不要的)
4.數據持久化(保存)

案例思路：

1. 在靜態數據中獲取音頻的id值
2. 發送指定id值json數據請求(src)
3. 從json數據中解析音頻所對應的URL地址

開始寫代碼

先導入所需的模塊

import requests
import parsel  # 數據解析模塊
import re

1.確定數據所在的鏈接地址(url) 逆向分析網頁性質(靜態網頁/動態網頁)

打開開發者工具，播放一個音頻，在Madie裏面可以找到一個數據包

複製URL，搜索

找到ID值

繼續搜索，找到請求頭參數

url = '//www.ximalaya.com/youshengshu/4256765/p{}/'.format(page)
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}

2.通過代碼發送url地址的請求

response = requests.get(url=url, headers=headers)
html_data = response.text

3.解析數據(要的, 篩選不要的) 解析音頻的 id值

selector = parsel.Selector(html_data)
lis = selector.xpath('//div[@class="sound-list _is"]/ul/li')

for li in lis:
    try:
        title = li.xpath('.//a/@title').get() + '.m4a'
        href = li.xpath('.//a/@href').get()
        # print(title, href)

        m4a_id = href.split('/')[-1]
        # print(href, m4a_id)

        # 發送指定id值json數據請求(src)
        json_url = '//www.ximalaya.com/revision/play/v1/audio?id={}&ptype=1'.format(m4a_id)
        json_data = requests.get(url=json_url, headers=headers).json()
        # print(json_data)

        # 提取音頻地址
        m4a_url = json_data['data']['src']
        # print(m4a_url)

        # 請求音頻數據
        m4a_data = requests.get(url=m4a_url, headers=headers).content

        new_title = change_title(title)

4.數據持久化(保存)

with open('video\\' + new_title, mode='wb') as f:
    f.write(m4a_data)
    print('保存完成:', title)

最後還要處理文件名非法字符

def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替換為下劃線
    return new_title

完整代碼

import re

import requests
import parsel  # 數據解析模塊


def change_title(title):
    """處理文件名非法字符的方法"""
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替換為下劃線
    return new_title


for page in range(13, 33):
    print('---------------正在爬取第{}頁的數據----------------'.format(page))
    # 1.確定數據所在的鏈接地址(url)  逆向分析  網頁性質(靜態網頁/動態網頁)
    url = '//www.ximalaya.com/youshengshu/4256765/p{}/'.format(page)
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}

    # 2.通過代碼發送url地址的請求
    response = requests.get(url=url, headers=headers)
    html_data = response.text
    # print(html_data)

    # 3.解析數據(要的, 篩選不要的)  解析音頻的  id值
    selector = parsel.Selector(html_data)
    lis = selector.xpath('//div[@class="sound-list _is"]/ul/li')

    for li in lis:
        try:
            title = li.xpath('.//a/@title').get() + '.m4a'
            href = li.xpath('.//a/@href').get()
            # print(title, href)

            m4a_id = href.split('/')[-1]
            # print(href, m4a_id)

            # 發送指定id值json數據請求(src)
            json_url = '//www.ximalaya.com/revision/play/v1/audio?id={}&ptype=1'.format(m4a_id)
            json_data = requests.get(url=json_url, headers=headers).json()
            # print(json_data)

            # 提取音頻地址
            m4a_url = json_data['data']['src']
            # print(m4a_url)

            # 請求音頻數據
            m4a_data = requests.get(url=m4a_url, headers=headers).content

            new_title = change_title(title)
            # print(new_title)

            # 4.數據持久化(保存)
            with open('video\\' + new_title, mode='wb') as f:
                f.write(m4a_data)
                print('保存完成:', title)
        except:
            pass

運行代碼，效果如下圖

Tags: 12月

Python爬蟲實戰案例：取喜馬拉雅音頻數據詳解

前言

項目目標

思路：(爬蟲案例)

開始寫代碼

完整代碼

VirMach 便宜 VPS

QNews

Python爬蟲實戰案例：取喜馬拉雅音頻數據詳解

前言

項目目標

思路：(爬蟲案例)

開始寫代碼

完整代碼

分享此文：

Related Posts

為什麼你們就不能加個空格呢

雙非本科，面試「涼」經！

HTTP系列（一）URI、URL、URN的區別

疑似小米11 Pro保護殼曝光：橫向矩陣亮了

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋