2018年2月16日 星期五

python3 對 html 的高速剖析-- lxml



bs4 的速度在處理大家資料時有點令人不耐,此時 lxml 不失為一個好方案

參 http://lxml.de/

在處理文字時,如果有 tag 與文字混雜的情況,可參考 http://yshblog.com/blog/151

基本上就是會把文字放在 tag 的 tail 屬性當中,要花點工夫去找出來、串起來


沒有留言:

張貼留言