快速注册

英文网站

20040916Zz. 2024-12-29 20:40:49 天津

import requests
from bs4 import BeautifulSoup #导入解析网页BeautifulSoup库

def getHtml(url):
    '''请求网页'''
    hd={'User-Agent':'Mozilla/5.0 '} #加入请求头
    r=requests.get(url,headers=hd,timeout=30)
    r.enconding=r.apparent_encoding
    #print("响应状态码：",r.status_code) #get请求方法，并将获取到的数据存储到变量r   #状态码
    return r.text

def extractHtml(html):
    '''解析与获取网页'''
    soup = BeautifulSoup(html,'html.parser')   #网页信息解析
    title = soup.find('h1',id="yuanchuang").get_text()
    print(title)
    span=soup.find_all('p')   #标签
        #print(span)
    data_f="{}\n" .format(title)  #创建一个空字符串用于存储 第一行显示标题
    for item in span:
        d=item.get_text() #get_text()去掉标签  连接字符串
        data_f=data_f+d+'\n'
    #print(data_f)   #查看爬取内容
    save_txt(data_f,title)

def save_txt(data_f,title):
    '''存储到txt文件'''
    path="C:\\Users\\鲸落\\Desktop\\pythonweb\\英文\\"
    with open (f'{path+title}.txt','wt',encoding='utf-8',newline='') as f:
        f.write(data_f)



urls=['https://www.i21st.cn/story/380{}.html'.format(i) for i in range(0,6) if i!=4]
# html=getHtml(url)
# extractHtml(html)
page=1
for url in urls:
    print('第{}篇正在下载'.format(page))
    page=page+1
    html=getHtml(url)
    extractHtml(html)

回应转发赞收藏

20040916Zz.

英文网站

20040916Zz.的最新日记 · · · · · · ( 全部 )

热门话题 · · · · · · ( 去话题广场 )