• <fieldset id="8imwq"><menu id="8imwq"></menu></fieldset>
  • <bdo id="8imwq"><input id="8imwq"></input></bdo>
    最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
    問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
    當前位置: 首頁 - 科技 - 知識百科 - 正文

    node.js爬取中關村的在線電瓶車信息

    來源:懂視網 責編:小采 時間:2020-11-27 22:04:04
    文檔

    node.js爬取中關村的在線電瓶車信息

    node.js爬取中關村的在線電瓶車信息:背景 學習nodejs已經有段時間,網上很多nodejs爬蟲的文章,所以著手練習寫一段,最近打算買一輛電瓶車來上下班,但又不知道哪個好,網上是各說紛紜啊,于是就想著,干脆用node.js自己寫一個小爬蟲,來爬一下中關村在線里面電瓶車的信息吧。 簡介 該d
    推薦度:
    導讀node.js爬取中關村的在線電瓶車信息:背景 學習nodejs已經有段時間,網上很多nodejs爬蟲的文章,所以著手練習寫一段,最近打算買一輛電瓶車來上下班,但又不知道哪個好,網上是各說紛紜啊,于是就想著,干脆用node.js自己寫一個小爬蟲,來爬一下中關村在線里面電瓶車的信息吧。 簡介 該d

    背景

    學習nodejs已經有段時間,網上很多nodejs爬蟲的文章,所以著手練習寫一段,最近打算買一輛電瓶車來上下班,但又不知道哪個好,網上是各說紛紜啊,于是就想著,干脆用node.js自己寫一個小爬蟲,來爬一下中關村在線里面電瓶車的信息吧。

    簡介

    該demo采用node.js作為爬蟲,為方便,有些地方使用es6語法,如有不懂,歡迎咨詢😊

    步驟

    第一步,引入需要的庫

    var cheerio = require('cheerio');
    var fetch = require('node-fetch');
    
    // cheerio 是一個類似瀏覽器端的jQuery,用來解析HTML的
    // fetch 用來發送請求

    第二步,設置初始的爬取的入口(我身處杭州,所以地區選了杭州的🤣)

    // 初始url
    var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
    // 由于每個a標簽下是相對路徑,故需要一個根地址來拼接,如下
    var urlRoot = "http://detail.zol.com.cn" 
    // 存放所有url,之所以用set,是為了防止有相同的而重復爬去
    var urls = new Set()
    // 存儲所有數據
    var data = [] 

    至此,我們的準備部分結束了😅,接下來,開始表演了

    分析網頁,思考爬取的方式


    每行4款,每頁是48款,一共16頁

    思路:

  • 每次獲取當前頁48個鏈接,并點進去之后,拿到該電瓶車的名稱和價格(其他信息獲取方式一樣,自行改就好😂)
  • 第一頁的全部完成之后,翻到下一頁,繼續爬,直到最后一頁結束
  • 首先我們定義一個函數如下

    // 這是得到每個頁面的48個鏈接,并開始發送請求
    
    function ad(arg){
    // 參數 arg 先不管
    // 本地化一下需要爬取的鏈接
    let url2 = arg || url;
    // 請求第一頁該網頁,拿到數據之后,復制給 app
    var app = await fetch(url2).then(res=>res.text())
    // 然后假裝用jQuery解析了
    var $ = cheerio.load(app)
    // 獲取當前頁所有電瓶車的a標簽
    var ele = $("#J_PicMode a.pic")
    // 存放已經爬取過的url,防止重復爬取
    var old_urls = []
    var urlapp = []
    //拿到所有a標簽地址之后,存在數組里面,等會兒要開始爬的
    for (let i = 0; i < ele.length; i++) {
    old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    // 用把URL一塊丟給promise處理
    urlapp = await Promise.all(old_urls)
    // 處理完成之后,循環加入jQuery😂
    for (let i = 0; i < urlapp.length; i++) {
    let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
    data.push({
    name:$2(".product-model__name").text(),
    price:$2(".price-type").text()
    })
    }
    // 至此,一頁的數據就爬完了
    // console.log(data);
    
    // 然后開始爬取下一頁
    var nextURL = $(".next").attr('href')
    // 判斷當前頁是不是最后一頁
    if (nextURL){
    let next = await fetch(urlRoot+nextURL).then(res=>res.text())
    // 獲取下一頁的標簽,拿到地址,走你
    ad(urlRoot+nextURL)
    }
    return data
    }
    ad()

    完整代碼如下

    var cheerio = require('cheerio');
    var fetch = require('node-fetch');
    var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
    var urlRoot = "http://detail.zol.com.cn"
    // var url = "http://localhost:3222/app1"
    var urls = new Set()
    var data = [] 
    async function ad(arg){
    let url2 = arg || url;
    var app = await fetch(url2).then(res=>res.text())
    var $ = cheerio.load(app)
    var ele = $("#J_PicMode a.pic")
    var old_urls = []
    var urlapp = []
    for (let i = 0; i < ele.length; i++) {
    old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    urlapp = await Promise.all(old_urls)
    for (let i = 0; i < urlapp.length; i++) {
    let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
    data.push({
    name:$2(".product-model__name").text(),
    price:$2(".price-type").text()
    })
    }
    
    var nextURL = $(".next").attr('href')
    if (nextURL){
    let next = await fetch(urlRoot+nextURL).then(res=>res.text())
    ad(urlRoot+nextURL)
    }
    return data
    }
    ad()

    總結

    聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

    文檔

    node.js爬取中關村的在線電瓶車信息

    node.js爬取中關村的在線電瓶車信息:背景 學習nodejs已經有段時間,網上很多nodejs爬蟲的文章,所以著手練習寫一段,最近打算買一輛電瓶車來上下班,但又不知道哪個好,網上是各說紛紜啊,于是就想著,干脆用node.js自己寫一個小爬蟲,來爬一下中關村在線里面電瓶車的信息吧。 簡介 該d
    推薦度:
    • 熱門焦點

    最新推薦

    猜你喜歡

    熱門推薦

    專題
    Top
    主站蜘蛛池模板: 8AV国产精品爽爽ⅴa在线观看| 亚洲欧美国产精品专区久久| 精品人妻中文字幕有码在线| 精品久人妻去按摩店被黑人按中出| 国产产无码乱码精品久久鸭| 日本精品一区二区三区四区| 欧美亚洲国产精品第一页| 久久99国产综合精品| 久久99精品九九九久久婷婷| 亚洲国产精品欧美日韩一区二区| 精品久久8x国产免费观看| 亚洲国产精品特色大片观看完整版 | 亚洲国产午夜中文字幕精品黄网站| 精品久久久久久国产| 国产精品美女久久久久| 人人妻人人澡人人爽人人精品97 | 欧美精品一区二区精品久久| 国产精品综合久成人| 69国产成人综合久久精品| 四虎成人精品永久免费AV| 久久亚洲精品无码观看不卡| 93精91精品国产综合久久香蕉| 老司机91精品网站在线观看| 91麻豆精品视频在线观看| 国产精品涩涩涩视频网站| 精品国产一区二区三区不卡| 久久亚洲精精品中文字幕| 亚洲国产成人精品无码区在线观看 | 久久免费国产精品| 久久国产乱子伦精品免费午夜| 国产欧美精品专区一区二区| 国内精品久久久久影院网站| 国产欧美日韩综合精品一区二区三区| 国产精品龙口护士门在线观看| 91精品啪在线观看国产电影| 热re99久久精品国产99热| 久久久精品午夜免费不卡| 秋霞午夜鲁丝片午夜精品久| 国产成人精品免费大全| 国内精品久久久久久久亚洲| 四虎成人精品|