博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python抓取中文网页
阅读量:6171 次
发布时间:2019-06-21

本文共 1187 字,大约阅读时间需要 3 分钟。

早就有想法把博客每天的访问流量记下来,刚好现在申请了GAE的应用,又开始学Python,正好拿这个练手。打算先利用Python把访问记录保存在本地,熟悉之后可以部署到GAE,利用GAE提供的cron就可以每天更近访问流量了。OK,开始~

  首先是简单的网页抓取程序:

  [python] view plaincopy import sys, urllib2

  req = urllib2.Request("")

  fd = urllib2.urlopen(req)

  while True:data = fd.read(1024)

  if not len(data):break sys.stdout.write(data)

  在终端运行提示urllib2.HTTPError: HTTP Error 403: Forbidden,怎么回事呢?

  这是由于网站禁止爬虫,可以在请求加上头信息,伪装成浏览器访问。添加和修改:

  [python] view plaincopy headers = {'User-Agent':'Mozilla/5.0 (; U;  NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} req = urllib2.Request("", headers=headers)

  再试一下,HTTP Error 403没有了,但是中文全都是乱码。又是怎么回事?

  这是由于网站是utf-8编码的,需要转换成本地系统的编码格式:

  [python] view plaincopy import sys, urllib2

  headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} req = urllib2.Request("", headers=headers)

  content = urllib2.urlopen(req)。read()   # UTF-8

  type = sys.getfilesystemencoding()      # local encode format print content.decode("UTF-8")。encode(type)  # convert encode format OK,大功告成,可以抓取中文页面了。下一步就是在GAE上做个简单的应用了~

 

转自:

本文转自夏雪冬日博客园博客,原文链接:http://www.cnblogs.com/heyonggang/archive/2013/01/04/2844710.html,如需转载请自行联系原作者

你可能感兴趣的文章
前端开发薪资之各地区对比(图文分析)(share)
查看>>
对做“互联网产品”的一些想法
查看>>
SPI协议及其工作原理浅析【转】
查看>>
原生js编写的安全色拾色器
查看>>
iOS:VFL语言
查看>>
让时间处理简单化 【第三方扩展类库org.apache.commons.lang.time】
查看>>
用scikit-learn学习DBSCAN聚类
查看>>
Linux设备模型(热插拔、mdev 与 firmware)【转】
查看>>
Android开发笔记第二篇(Android 手机概念)
查看>>
js隐藏与显示回到顶部按钮
查看>>
hdu4496 D-City(扭转和支票托收啊 )
查看>>
数据挖掘 | 数据理解和预处理
查看>>
关于大数据你必须了解的几个关键词!
查看>>
在Kali Linux中更改GRUB2背景的5种方式
查看>>
如何把Windows 10的“便笺”按钮从操作中心挪到开始菜单和桌面
查看>>
19 个必须知道的 Visual Studio 快捷键
查看>>
如何在Ubuntu命令行下管理浏览器书签
查看>>
《大数据分析原理与实践》一一2.1 大数据分析模型建立方法
查看>>
《 自动化测试最佳实践:来自全球的经典自动化测试案例解析》一一2.7 测试套件和类型...
查看>>
8月18日云栖精选夜读:阿里视频云最强转码技术揭秘:窄带高清原理解析+用户接入指南...
查看>>