• <fieldset id="8imwq"><menu id="8imwq"></menu></fieldset>
  • <bdo id="8imwq"><input id="8imwq"></input></bdo>
    最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
    問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
    當前位置: 首頁 - 科技 - 知識百科 - 正文

    Python多線程爬蟲實戰_爬取糗事百科段子的實例_python

    來源:懂視網 責編:小OO 時間:2020-11-27 14:22:33
    文檔

    Python多線程爬蟲實戰_爬取糗事百科段子的實例_python

    多線程爬蟲:即程序中的某些程序段并行執行。合理地設置多線程,可以讓爬蟲效率更高。糗事百科段子普通爬蟲和多線程爬蟲。分析該網址鏈接得出。https://www.qiushibaike.com/8hr/page/頁碼/。多線程爬蟲也就和JAVA的多線程差不多,直接上代碼。
    推薦度:
    導讀多線程爬蟲:即程序中的某些程序段并行執行。合理地設置多線程,可以讓爬蟲效率更高。糗事百科段子普通爬蟲和多線程爬蟲。分析該網址鏈接得出。https://www.qiushibaike.com/8hr/page/頁碼/。多線程爬蟲也就和JAVA的多線程差不多,直接上代碼。

    下面小編就為大家分享一篇Python多線程爬蟲實戰_爬取糗事百科段子的實例,具有很好的參考價值,希望對大家有所幫助。對Python感興趣的小伙伴們一起跟隨小編過來看看吧

    多線程爬蟲:即程序中的某些程序段并行執行,

    合理地設置多線程,可以讓爬蟲效率更高

    糗事百科段子普通爬蟲和多線程爬蟲

    分析該網址鏈接得出:

    https://www.qiushibaike.com/8hr/page/頁碼/

    多線程爬蟲也就和JAVA的多線程差不多,直接上代碼

    '''
    #此處代碼為普通爬蟲
    import urllib.request
    import urllib.error
    import re
    headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    urllib.request.install_opener(opener)
    for i in range(1,2):
     url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
     pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
     pattern = '<p class="content">.*?<span>(.*?)</span>(.*?)</p>'
     datalist = re.compile(pattern,re.S).findall(pagedata)
     for j in range(0,len(datalist)):
     print("第"+str(i)+"頁第"+str(j)+"個段子內容是:")
     print(datalist[j])
    '''
    '''
    #此處為多線程介紹代碼
    import threading #導入多線程包
    class A(threading.Thread): #創建一個多線程A
     def init(self): #必須包含的兩個方法之一:初始化線程
     threading.Thread.init(self)
     def run(self): #必須包含的兩個方法之一:線程運行方法
     for i in range(0,11):
     print("我是線程A")
    class B(threading.Thread): #創建一個多線程A
     def init(self): #必須包含的兩個方法之一:初始化線程
     threading.Thread.init(self)
     def run(self): #必須包含的兩個方法之一:線程運行方法
     for i in range(0,11):
     print("我是線程B")
    t1 = A() #線程實例化
    t1.start() #線程運行
    t2 = B()
    t2.start()
    '''
    
    #此處為修改后的多線程爬蟲
    #使用多線程進行奇偶頁的爬取
    import urllib.request
    import urllib.error
    import re
    import threading
    headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    urllib.request.install_opener(opener)
    class one(threading.Thread): #爬取奇數頁內容
     def init(self):
     threading.Thread.init(self)
     def run(self):
     for i in range(1,12,2):
     url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
     pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
     pattern = '<p class="content">.*?<span>(.*?)</span>(.*?)</p>'
     datalist = re.compile(pattern,re.S).findall(pagedata)
     for j in range(0,len(datalist)):
     print("第"+str(i)+"頁第"+str(j)+"段子內容為:")
     print(datalist[j])
    
    class two(threading.Thread): #爬取奇數頁內容
     def init(self):
     threading.Thread.init(self)
     def run(self):
     for i in range(2,12,2):
     url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
     pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
     pattern = '<p class="content">.*?<span>(.*?)</span>(.*?)</p>'
     datalist = re.compile(pattern,re.S).findall(pagedata)
     for j in range(0,len(datalist)):
     print("第"+str(i)+"頁第"+str(j)+"段子內容為:")
     print(datalist[j])
    t1 = one()
    t2 = two()
    t1.start()
    t2.start()

    以上這篇Python多線程爬蟲實戰_爬取糗事百科段子的實例就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持PHP中文網。

    相關推薦:

    Python數據結構與算法之常見的分配排序法示例【桶排序與基數排序】_python

    Python中xlwt設置excel單元格字體及格式方法

    Python語言實現百度語音識別功能的實例

    聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

    文檔

    Python多線程爬蟲實戰_爬取糗事百科段子的實例_python

    多線程爬蟲:即程序中的某些程序段并行執行。合理地設置多線程,可以讓爬蟲效率更高。糗事百科段子普通爬蟲和多線程爬蟲。分析該網址鏈接得出。https://www.qiushibaike.com/8hr/page/頁碼/。多線程爬蟲也就和JAVA的多線程差不多,直接上代碼。
    推薦度:
    標簽: 段子 百科 python
    • 熱門焦點

    最新推薦

    猜你喜歡

    熱門推薦

    專題
    Top
    主站蜘蛛池模板: 亚洲天堂久久精品| 国产精品夜色视频一级区| 久久久精品免费国产四虎| 亚洲精品亚洲人成在线观看| 91麻豆精品国产91久久久久久| 亚洲AV日韩精品久久久久久久| 国产国拍亚洲精品福利| 国产精品黄网站| 精品无码国产自产拍在线观看| 日韩精品一区二三区中文| 国产精品视频免费一区二区| 柠檬福利精品视频导航| 国产精品女同一区二区| 午夜精品久久久久久99热| 日韩经典精品无码一区| 国内精品国语自产拍在线观看 | 99爱在线视频这里只有精品| 国产欧美日韩综合精品一区二区| 亚洲AV无码久久精品蜜桃| 亚洲精品国产精品乱码不卞| 久久97久久97精品免视看| 国产精品极品| 国产精品偷窥熟女精品视频| 99热成人精品国产免男男| 91久久精品电影| 欧美精品第欧美第12页| 久久99国产精品久久99| 精品免费视在线观看| 精品国产欧美一区二区| 国产精品亚洲片在线va| 国产精品嫩草影院一二三区入口| 99久久免费国产精品热| 99久久免费国产精精品| 2020国产精品| 国产精品久久影院| 亚洲精品天天影视综合网| 97久久精品人人做人人爽| 99久久国产综合精品网成人影院| 在线精品视频播放| 国产精品 猎奇 另类视频| 国产精品黄网站|