Shell's Home

Dec 2, 2011 - 1 minute read - Comments

从网页中爬链接的一个小技巧

没啥好多说的,从verycd中爬所有的ed2k链接。

lynx -dump -listonly -nonumbers <http://www.verycd.com/topics/XXX/> | grep ed2k >> ed2k.txt

要看到ed2k未转码的内容也不难。

import sys, urllib
with open(sys.argv\[1\], 'r') as fi: print urllib.unquote(fi.read())