项目目标:利用Python爬虫技术,模仿人类操作,克服反爬机制,爬取想要的信息
项目流程图
taob_www.hack95.com
来自硒.webdriver 导入Chrome#在selenium中引入Chrome
来自硒.webdriver.通用.键导入按键#引入键盘
导入时间#timemodule
导入请求浏览器=Chrome()#创建浏览器
浏览器.获取("http://www.hack95.com")
#找到输入框,输入男装按回车
浏览器.通过_xpath查找元素('//*[@id="q"]').send_keys ("男装《,按键.ENTER)#让程序等待,用户手动登录》同时浏览器.current_url.开始于("https://www.hack95.com" ): 打印(“等待”)时间。睡觉(1) n=1
#查找页面所有商品同时 1:项目=浏览器.按类名称查找元素 ("m-项目列表") .按类名称查找元素("项目")对于项目在项目中:src_path=项目.按类名称查找元素("图片框").按标签名称查找元素 ("img") .get_attribute("data-src")src_path="http:"+ src_path#下载这张图片,保存在文件中open(f"{n}.jpg",模式="wb “ ).写入(请求.获取(src_path) ).内容)n+=1浏览器.按类名称查找元素("m 页") .按类名称查找元素(“下一个”).点击()时间.睡觉 (2)打印("下一页了")