由于现在网页多是采取动态加载的形式,如用普通爬取可能会无法获取相关信息,如在某门户网站,来到资讯页面,用调试手段尝试爬取发布时间的相关信息,爬取的结果很可能就是空的字符串或空列表,而selenium由于是模拟人浏览网页的第三方库,其page_source可以直观的获取你所见网页下的源代码信息,再利用lxml下的etree相关方法将其转成html元素,再用xpath解析就很简单了;
这里的思路是先到nba总的页面,从总的页面中获取新闻资讯板块的链接,然后根据链接循环遍历用selenium新开一个窗口(注意跳转操作)然后获取标题,文本内容,作者,发布时间,图片链接等信息并将这些信息组合保存成想要的格式;然后关闭刚才的窗口,跳转回主页,循环往复;话不多说直接上代码