Python 之 XML與文本操作

一直想做一個自動讀取RSS,自動更新的站。今晚正好沒有事,先寫個Demo。
臨時先保存到文本文件中。順便復習一下Python。
用到了MD5,XML.DOM,URllib,OS庫,都是默認的。
直接插代碼吧。

import sys
#coding=gb2312
reload(sys)
sys.setdefaultencoding('utf-8')
import md5
import os
import urllib
import xml.dom.minidom as xxs

#Config
tmpPath='E:/Else/rss-engins/'

#FileName2Md5
def md5str(t):
	h=md5.new()
	h.update(t)
	return str(h.hexdigest())
	
#FileSystem
def saveFile(t,c):
	f='data/'+md5str(t)+'.txt'
	if os.path.isfile(f):
		return
	fi=open(tmpPath+'index.txt','a')
	fi.writelines(t+'\n')
	fg=open(tmpPath+f,'w')
	fg.writelines(c)
	
#RSS
def saveRss(f,c,encoding):
	fp=open(f,'w')
	if encoding=='gb2312':
		c=c.decode('gb2312').encode('utf-8')
		c=c.replace('encoding="gb2312"','encoding="utf-8"')
	fp.writelines(c)
	fp.close()
	return f
def getRss(url):
	ul=urllib.urlopen(url)
	t=ul.read()
	ul.close()
	return t
def rssMain(url,encoding):
	f=tmpPath+'xml/'+md5str(url)+'.xml'
	if os.path.isfile(f):
		return "isok"
	return saveRss(f,getRss(url),encoding)

#getInfo
def getRssInfo(url,encoding):
	t=rssMain(url,encoding)
	if t=='isok':
		print '該路徑已經采集過了。'
		return
	t=xxs.parse(t)
	ri=t.getElementsByTagName("channel")[0].getElementsByTagName("item")
	for item in ri:
		title=str(item.getElementsByTagName("title")[0].childNodes[0].data)
		content=str(item.getElementsByTagName("description")[0].childNodes[0].data)
		print '保存文章('+title+')中...'
		saveFile(title,content)

#處理
def BaiduHi(RS):
	for rs in RS:
		print '加載用戶:'+rs+'(http://hi.baidu.com/'+rs+'/rss)...'
		getRssInfo(r'http://hi.baidu.com/'+rs+'/rss','gb2312')
		print '用戶:'+rs+'處理完畢。\n'
		
def SohuBlog(RS):
	for rs in RS:
		print '加載用戶:'+rs+'(http://'+rs+'.blog.sohu.com/rss)...'
		getRssInfo(r'http://'+rs+'.blog.sohu.com/rss','utf-8')
		print '用戶:'+rs+'處理完畢。\n'
		
#RSS服務器列表
RssServer=['mqycn','yilin','loveinmyhome','guojing021','900ip','037123']
BaiduHi(RssServer)

RssServer=['appler969','saber-bing','02040229','seahai','satanqueen','douzwang']
SohuBlog(RssServer)

現在就可以采集以上一個百度hi用戶的最新博文了。呵呵,核心還是RSS。

===============================================================
使用說明:讀取RSS,并生成記錄到本地。
索引文件為index.txt。每條新聞記錄為一行。對應的內容文件為data/{md5(文章名)}.txt

===============================================================
更新日期:2009-12-13
添加了是否讀取的判斷,如果讀取,則不再采集

===============================================================
更新日期:2009-12-24
修改了部分編碼。解決了UTF-8出粗的問題。
添加了搜狐博客的測試代碼。

1 thought on “Python 之 XML與文本操作

  1. Pingback引用通告: 苗啟源的部落格 » 巧用404.php解決Wordpress耗資源的問題,給Wordpress加個緩存功能

發表評論

電子郵件地址不會被公開。 必填項已用*標注

此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據