寫爬蟲的過程中常需要對網頁選擇適當的編碼。
今天介紹一個jschardet module能自動檢測網頁編碼
1 | const iconv = require('iconv-lite'); |
jschardet.detect(body).encoding會回傳該網頁的編碼,對module實作有興趣的人可以參考原始碼,基本上是列出該編碼常用字元,算出網頁使用編碼的機率有多高
如此一來,以後遇到big5或其它語系的編碼不用另外記錄,可以直接取得正確的raw data
參考資料:
官方github
寫爬蟲的過程中常需要對網頁選擇適當的編碼。
今天介紹一個jschardet module能自動檢測網頁編碼
1 | const iconv = require('iconv-lite'); |
jschardet.detect(body).encoding會回傳該網頁的編碼,對module實作有興趣的人可以參考原始碼,基本上是列出該編碼常用字元,算出網頁使用編碼的機率有多高
如此一來,以後遇到big5或其它語系的編碼不用另外記錄,可以直接取得正確的raw data
參考資料:
官方github