從網站上下載下傳資源可分為兩步:
(1)通過周遊網站的方試,生成資源清單。
(2)根據清單一一下載下傳資源。
資源清單是一個樹狀結構:
前面已完成了login()函數,現在我們可以調用這個函數成功登陸并獲得課程清單頁面。
可以從這個頁面擷取課程名稱與課程id。
捕獲課程名稱與課程id可以用正則式進行。
為了友善調試正則式,我們直接用我們在login.py中下載下傳下來的login.html進行分析。寫如下腳本來調試正則式:
這個程式經部落客調試過,可以得到如下的結果:
700914, 藥學綜合知識與技能-基礎[精品]
700536, 藥物化學-基礎[精品]
700925, 藥劑學-基礎(講座一)[精品]
700021, 藥劑學-基礎(講座二)[精品]
....<此處略>...
700797, (中藥師)應試技巧
700837, 藥學基礎知識
哈哈~課程id與課程名稱就得到了。
有了課程id,那麼就可以到每個課程的下載下傳頁面去擷取。
(等會兒,部落客下樓吃個飯……)