更新時(shí)間:2021-05-11 來(lái)源:黑馬程序員 瀏覽量:
網(wǎng)站地圖(SiteMap),也叫站點(diǎn)地圖,是把網(wǎng)站中所有頁(yè)面的鏈接都放在網(wǎng)頁(yè)上的網(wǎng)頁(yè)。搜索蜘蛛很喜歡網(wǎng)站地圖,SiteMap是網(wǎng)站所有鏈接的容器。許多網(wǎng)站連通的層次比較深,蜘蛛很難抓到,網(wǎng)站地圖可以方便搜索引擎蜘蛛抓取網(wǎng)站頁(yè)面,通過(guò)抓取網(wǎng)站頁(yè)面,清楚了解網(wǎng)站的結(jié)構(gòu),網(wǎng)站地圖一般被命名為sitemap,為搜索引擎蜘蛛指引方向,增加對(duì)網(wǎng)站重要內(nèi)容頁(yè)面的收錄。
網(wǎng)站地圖格式一般是.xml格式的居多,那么如何將.xml文件轉(zhuǎn)為.txt格式呢?下面我們通過(guò)Python來(lái)實(shí)現(xiàn)。
# 導(dǎo)入requests模塊,用于獲取網(wǎng)站地圖源碼 import requests # 導(dǎo)入正則表達(dá)式模塊,用于在xml網(wǎng)站地圖中獲取鏈接地址 import re # 獲取傳智教育網(wǎng)站地圖源碼 sitemap_xml = requests.get('http://www.itcast.cn/sitemap/sitemap.xml').text # 使用正則表達(dá)式匹配網(wǎng)站地圖中的鏈接 url = re.findall(r'<loc>(.*)</loc>', sitemap_xml) # 使用join()函數(shù)在每條鏈接錢(qián)前面加個(gè)換行符 url_line = '\n'.join(str(url_one) for url_one in url) # 將獲取的鏈接保存為sitemap.xml open(r'sitemap.txt', 'w', encoding='utf-8').write(url_line)
猜你喜歡:
Python爬蟲(chóng)難學(xué)嗎?學(xué)會(huì)需要多久?
Python的標(biāo)準(zhǔn)模塊:sys、os、random和time
Zookeeper是什么?有哪些顯著特點(diǎn)?
2021-05-11怎樣優(yōu)化數(shù)據(jù)庫(kù)查詢(xún)?
2021-05-11Python如何去除列表重復(fù)元素?
2021-05-11北京python培訓(xùn)哪個(gè)機(jī)構(gòu)好些?點(diǎn)擊領(lǐng)取福利Python基礎(chǔ)教程下載
2021-05-07Hadoop集群部署有幾種模式?Hadoop集群部署方法介紹
2021-05-07怎樣定義Scala數(shù)組?數(shù)組遍歷和數(shù)組轉(zhuǎn)換是怎樣操作的?
2021-05-07