• <fieldset id="8imwq"><menu id="8imwq"></menu></fieldset>
  • <bdo id="8imwq"><input id="8imwq"></input></bdo>
    最新文章專題視頻專題問答1問答10問答100問答1000問答2000關(guān)鍵字專題1關(guān)鍵字專題50關(guān)鍵字專題500關(guān)鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專題關(guān)鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
    問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
    當(dāng)前位置: 首頁 - 科技 - 知識百科 - 正文

    Node.js抓取中文網(wǎng)頁亂碼問題和解決方法_node.js

    來源:懂視網(wǎng) 責(zé)編:小采 時(shí)間:2020-11-27 21:34:19
    文檔

    Node.js抓取中文網(wǎng)頁亂碼問題和解決方法_node.js

    Node.js抓取中文網(wǎng)頁亂碼問題和解決方法_node.js:Node.js 抓取非 utf-8 的中文網(wǎng)頁時(shí)會出現(xiàn)亂碼問題,比如網(wǎng)易的首頁編碼是 gb2312,抓取時(shí)會出現(xiàn)亂碼 代碼如下: var request = require('request') var url = 'http://www.163.com' request(url, function (err, r
    推薦度:
    導(dǎo)讀Node.js抓取中文網(wǎng)頁亂碼問題和解決方法_node.js:Node.js 抓取非 utf-8 的中文網(wǎng)頁時(shí)會出現(xiàn)亂碼問題,比如網(wǎng)易的首頁編碼是 gb2312,抓取時(shí)會出現(xiàn)亂碼 代碼如下: var request = require('request') var url = 'http://www.163.com' request(url, function (err, r

    Node.js 抓取非 utf-8 的中文網(wǎng)頁時(shí)會出現(xiàn)亂碼問題,比如網(wǎng)易的首頁編碼是 gb2312,抓取時(shí)會出現(xiàn)亂碼
    代碼如下:
    var request = require('request')
    var url = 'http://www.163.com'

    request(url, function (err, res, body) {
    console.log(body)
    })

    可以使用 iconv-lite 來解決

    安裝
    代碼如下:
    npm install iconv-lite

    同時(shí)我們順帶把 user-agent 修改一下,以防網(wǎng)站屏蔽:
    代碼如下:
    var originRequest = require('request')
    var iconv = require('iconv-lite')
    var headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
    }

    function request (url, callback) {
    var options = {
    url: url,
    encoding: null,
    headers: headers
    }
    originRequest(options, callback)
    }

    request(url, function (err, res, body) {
    var html = iconv.decode(body, 'gb2312')
    console.log(html)
    })

    亂碼問題解決

    使用 cheerio 解析 HTML

    cheerio 可以簡單粗暴的理解為服務(wù)器端 jQuery 選擇器,有了它,比正則要更加直觀許多

    安裝
    代碼如下:
    npm install cheerio
    request(url, function (err, res, body) {
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html)
    console.log($('h1').text())
    console.log($('h1').html())
    })

    輸出如下
    代碼如下:
    網(wǎng)易
    网易

    那么問題來了,$('h1').html() 輸出的代碼是經(jīng)過 Unicode 編碼的,網(wǎng)易變成了网易,給我們的字符處理帶來了一些麻煩

    解決 cheerio .html() 「亂碼」問題
    查閱文檔可知,可以關(guān)閉這個(gè)轉(zhuǎn)換實(shí)體編碼的功能
    代碼如下:
    var $ = cheerio.load(html)

    改成
    代碼如下:
    var $ = cheerio.load(html, {decodeEntities: false})

    即可,完整代碼如下:
    代碼如下:
    var originRequest = require('request')
    var cheerio = require('cheerio')
    var iconv = require('iconv-lite')
    var headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
    }

    function request (url, callback) {
    var options = {
    url: url,
    encoding: null,
    headers: headers
    }
    originRequest(options, callback)
    }

    var url = 'http://www.163.com'

    request(url, function (err, res, body) {
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html, {decodeEntities: false})
    console.log($('h1').text())
    console.log($('h1').html())
    })

    聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

    文檔

    Node.js抓取中文網(wǎng)頁亂碼問題和解決方法_node.js

    Node.js抓取中文網(wǎng)頁亂碼問題和解決方法_node.js:Node.js 抓取非 utf-8 的中文網(wǎng)頁時(shí)會出現(xiàn)亂碼問題,比如網(wǎng)易的首頁編碼是 gb2312,抓取時(shí)會出現(xiàn)亂碼 代碼如下: var request = require('request') var url = 'http://www.163.com' request(url, function (err, r
    推薦度:
    標(biāo)簽: 亂碼 抓取 中文網(wǎng)頁
    • 熱門焦點(diǎn)

    最新推薦

    猜你喜歡

    熱門推薦

    專題
    Top
    主站蜘蛛池模板: 亚洲国产另类久久久精品| 亚洲码国产精品高潮在线| 久久精品成人免费观看97| 无码人妻丰满熟妇精品区| 欧美大片日韩精品| 久久久久久亚洲精品成人| 精品无码人妻久久久久久| 精品视频第一页| 人妻精品久久无码区| 国产在线观看一区二区三区精品| 2021精品国产综合久久| 亚洲欧洲精品成人久久曰影片| 四虎在线精品视频一二区| 精品亚洲成a人片在线观看| 午夜肉伦伦影院久久精品免费看国产一区二区三区 | 国产精品尹人在线观看| 成人区人妻精品一区二区不卡视频 | 人妻精品久久无码专区精东影业 | 日韩精品亚洲专区在线观看| 成人国产精品日本在线观看 | 国产精品伊人久久伊人电影| 久久精品嫩草影院| 500av大全导航精品| 精品亚洲成AV人在线观看| 久久香蕉国产线看观看精品yw| 亚洲国产综合精品一区在线播放| 精品国产91久久久久久久a| 国产精品美女久久久久av爽 | 中日韩产精品1卡二卡三卡| 久久精品国产99国产精品| 久久久久四虎国产精品| 亚洲国产成人久久精品99 | 99re66热这里只有精品| 久久久精品人妻一区二区三区蜜桃| 色婷婷久久久SWAG精品| 久久伊人精品青青草原日本| 久久久久久久久久久免费精品| 久久狠狠一本精品综合网| 精品无码国产污污污免费网站国产 | 久久激情亚洲精品无码?V| 国产午夜精品一区二区三区不卡|