英文网站
import requests from bs4 import BeautifulSoup #导入解析网页BeautifulSoup库 def getHtml(url): '''请求网页''' hd={'User-Agent':'Mozilla/5.0 '} #加入请求头 r=requests.get(url,headers=hd,timeout=30) r.enconding=r.apparent_encoding #print("响应状态码:",r.status_code) #get请求方法,并将获取到的数据存储到变量r #状态码 return r.text def extractHtml(html): '''解析与获取网页''' soup = BeautifulSoup(html,'html.parser') #网页信息解析 title = soup.find('h1',id="yuanchuang").get_text() print(title) span=soup.find_all('p') #标签 #print(span) data_f="{}\n" .format(title) #创建一个空字符串用于存储 第一行显示标题 for item in span: d=item.get_text() #get_text()去掉标签 连接字符串 data_f=data_f+d+'\n' #print(data_f) #查看爬取内容 save_txt(data_f,title) def save_txt(data_f,title): '''存储到txt文件''' path="C:\\Users\\鲸落\\Desktop\\pythonweb\\英文\\" with open (f'{path+title}.txt','wt',encoding='utf-8',newline='') as f: f.write(data_f) urls=['https://www.i21st.cn/story/380{}.html'.format(i) for i in range(0,6) if i!=4] # html=getHtml(url) # extractHtml(html) page=1 for url in urls: print('第{}篇正在下载'.format(page)) page=page+1 html=getHtml(url) extractHtml(html)
© 本文版权归 20040916Zz. 所有,任何形式转载请联系作者。
© 了解版权计划