很多网页的URL后面是page=1,表示第1页的内容,page=2则为第2页,以此类推。
如果想把这些个页面都保存下来,在bash下用wget获取就简单多了,如源代码:
#!/bin/bash
GET=/usr/bin/wget
URL=”https://www.itkylin.com/articles/?page=”
MAX=45
for ((i = 1;i <= $MAX; i ++))
do
$GET –output-document=page$i.html ${URL}${i}
done
其中–output-document表示将文档写入FILE
这样就把45个页面都保存下面,下面就可以开始用grep来获取想要的内容了。