寫爬蟲的過程中常需要對網頁選擇適當的編碼。
今天介紹一個jschardet module能自動檢測網頁編碼
在os X的環境下,常使用MongoHub檢視資料庫及執行aggregate的動作。
前陣子使用aggregate檢查資料數量時,發現怎麼找數量總是多一筆。本來以為是指令下錯了,簡單做個實驗後,發現MongoHub的aggregate結果會有個預設值,如下圖
在date match空值的情況下,仍然有1個document被找到,但根本沒這個document。
下次做aggregate時結果的數量得先減個1才準。
實際使用mongoDB時,遇到無法簡單下query得到結果的情況(例如計算不同科目上課學生的平均分數),我們會使用aggregation。
前陣子工作上需要寫爬蟲撈政府機關的資料回來,一般的靜態網頁可以由URL的規則找到資料連結,而動態網頁常無法使用此方式。最常遇到的是client端按下button後送javascript的動作給後端,然後才render網頁。
這篇簡單記錄如何抓取這類型網站的資料。
由於工作的關係開始使用MongoDB,我註冊官方的MongoDB for Node.js Developer及MongoDB for DBAS。這一系列文章為上課筆記和心得。
作者在google瀏覽source code及內部工具,學習程式語言的best practice
和同事們合作開發working demo並呈現給創辦人
二年後離開google,因為那裡己經不是適合的學習環境
接下來加入startup,尋求最大化自我成長
最佳化學習是high leverage的項目 找到適合成長的環境
今年7月我參加一個雲端讀書會,主題為這本The Effective Engineer。這本書由一位前google工程師撰寫,整本書圍繞在一個中心思想:如何讓工程師在有限的時間內產出最多的價值。
在讀這本書不僅學到一流人才的思考邏輯,同時也認識一群努力學習的好夥伴。我將這十週的讀書筆記整理在這系列的文章。
NodeJS是以非同步事件驅動為導向的設計,而基本的事件要有發射端和接受端,以下做個介紹。
11/26參加台灣資料科學年會辦的”一天搞懂深度學習”,由台大李宏毅老師主講。
碩班曾接觸過機器學習,學習SVM,hMM和KNN等方法做分類和辯識,也使用matlab寫程式實作演算法。
那個時候才知道線性代數和機率如何應用在機器學習。而近年來深度學習的竄起,也讓我對這個題目感到好奇,所以報名這次的講座。