Python 爬虫抓站记录（虾米，百度，豆瓣，新浪微博）

发表评论

python 下用到的库，urllib, urllib2, BeautifulSoup, cookielib, mechanize, re

看Firebug模拟浏览器行为。

1. 虾米

虾米不用登陆，没有IP限制，最简单。Python抓了下Xiami电台的试听数里用的是

import urllib2

content = urllib2.urlopen('http://www.xiami.com/artist/top/id/1234').read()

每个歌手爬个两三页。把试听数10000以上的歌记下来。歌手id大概有11w。

处理网页用split，正则表达式re.compile， BeautifulSoup都成。

( Beautiful Soup的中文文档 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html )

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(content)

就能对soup操作了，支持正则表达式，譬如

soup.find('p', align=re.compile('^b.*'))['id']#可以从 <p id="secondpara" align="blah"> 中抓出 secondpara，可以通过这个抓到a href=""中间的url

soup.find("b", { "class" : "lime" })#可以抓到 <b class="lime">Lime</b>

soup.find("b", { "class" : "lime" }).string #可以提取到<>与</>中间的内容 Lime。

2. 百度

如果想在空间里取米粒之类的操作就要登陆，mechanize比较好用。

import mechanize

	import cookielib
	# Browser

	br = mechanize.Browser()
	# Cookie Jar

	cj = cookielib.LWPCookieJar()

	br.set_cookiejar(cj)
	# Browser options

	br.set_handle_equiv(True)

	br.set_handle_gzip(True)

	br.set_handle_redirect(True)

	br.set_handle_referer(True)

	br.set_handle_robots(False)
	br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

	r = br.open('https://passport.baidu.com/?login&tpl=mn')
	br.select_form(nr=0)

	br.form['username']='abcabcabc' #用户名

	br.form.find_control("password").readonly = False

	br.form['password']='123123123' #密码

	br.submit()

然后可以试试开个百度窗口看看自己的用户名在不在网页里

content = br.open('http://www.baidu.com').read()
	print 'cwyalpha' in content

3. 新浪微博

新浪微博的登陆很麻烦。网上有很多模拟SinaSSO登陆的做法，比如

http://chen.yi.bo.blog.163.com/blog/static/15062110920120151191189/

http://denger.iteye.com/blog/1039052

http://community.itbbs.cn/thread/19120/

http://blog.csdn.net/xiaojianpitt/article/details/6440561

继续阅读 →

ldsea

2012年4月22日

明天又是周一了，估计又是忙一天，这两周光忙着处理生产问题了

不用安装oracle客户端也可以用plsql连接远程oracle

发表评论

不用安装oracle客户端也可以用plsql连接远程oracle
关键字: plsql连接远程oracle
每次问人家，plsql 可不可以直接远程连接服务器，他们都说要安装客户端，记得以前用过个什么sql deveplore 什么的工具，不用安装客户端的，而且是绿色软件来的，我就想，一定就办法，不用这么麻烦安装客户端的。上网找了找，下面把我的实践详细过程记录下来，希望对大家有帮助，有什么不对的，请大家多多评论，指出来。
1、在安装ORACLE服务器的机器上搜索下列文件，
oci.dll
ocijdbc10.dll
ociw32.dll
orannzsbb10.dll
oraocci10.dll
oraociei10.dll
sqlnet.ora
tnsnames.ora
classes12.jar
ojdbc14.jar
放到一个文件夹,如 oraclient
2、配置tnsnames.ora，如果本机上没有安装oracle，
可以从安装了oracle的机上拷贝一个(tnsnames.ora文件在%ORACLE_HOME%/network/admin下)放在上面的目录D:/oraclient下。
oracledata =
(DESCRIPTION =
(ADDRESS_LIST =
(ADDRESS = (PROTOCOL = TCP)(HOST = 192.168.0.58)(PORT = 1521))
)
(CONNECT_DATA =
(SERVICE_NAME = oracledata)
)
)

3、添加一个环境变量，名为TNS_ADMIN，值为tnsnames.ora文件所在路径（如：D:/oraclient，特别是重装后或其它操作，忘了TNS_ADMIN变量，plsql登陆就会报无法解析指定的连接标识符)，这是为了能够找到上面说的tnsnames.ora。如果本机上安装了ORACLE，并且设置了ORACLE_HOME环境变量，那么会自动在%ORACLE_HOME%/network/admin/位置查找tnsnames.ora文件。

4、设置ORACLE的语言，添加环境变量：
“NLS_LANG = SIMPLIFIEDCHINESE_CHINA.ZHS16GBK”，(AMERICAN_AMERICA.US7ASCII 是ASCII编码类型，其它类型可自己到服务器看一下或网上查找一下)

只要活着一定会遇上好事的

樱桃小丸子

ldsea

2012年4月21日

大晚上3个小时的电话会议，还是没把问题处理好，流程得有多繁琐

谷歌2亿2千5百万用户ID遭曝光

发表评论

英国人Robert Pitt今早在Github上公布了他的爬虫脚本，导致任何人都可以容易地取得Google Plus的大量公开用户的ID信息。至今大概有2亿2千5百万用户ID遭曝光。早在几个月之前Robert就向谷歌报告此漏洞，谷歌放任自流，遭此劫数。

Robert在谷歌的gstatic.com服务器上找到了所有公开用户的sitemap.xml文件，顺此线索写出的Javascript脚本包括注释只有71行。此脚本在2012年1月18日取得了1亿7百万个帐号，现在则可以取得2亿2千5百万个帐号，也就是说Google Plus的用户在4个月里增加了将近1亿2千万，用户数翻了1翻还多。

也许谷歌大概认为这些用户信息都是公开的，即使你看到了他们也无所谓。可那些spammer不一定这么想吧。何况大量用户不懂得如何设置隐私保护，难保大量的悄悄话已经公布在网上了。

Robert的脚本：https://github.com/robertpitt/plus-scraper

亮点在于是个nodejs脚本，非常短。。。

ldsea

2012年4月20日

还是想说，我这次理发真是丑到爆了！

ldsea

2012年4月20日

今天公司发了2011年度总收入明细，坑爹啊！原来我去年花了那么多钱？发了那么多，为什么就剩下这么一点~
不过我还是一直记着媳妇那句话，要好好工作，这份工作能给家人带来幸福。累点没什么

Notepad++ 快捷键

发表评论

Ctrl+C 复制
Ctrl+X 剪切
Ctrl+V 粘贴
Ctrl+Z 撤消
Ctrl+Y 恢复
Ctrl+A 全选
Ctrl+F 键查找对话框启动
Ctrl+H 查找/替换对话框
Ctrl+D 复制并粘贴当行 Ctrl+L 删除当前行
Ctrl+T 当行向上移动一行
F3 查找下一个
Shift+F3 查找上一个
Ctrl+Shift+F 组合在文件中查找
Ctrl+F3 查找（volatil）下一页
Ctrl+Shift+F3 查找（volatil）上一页
Ctrl+Shift+I 组合增量搜索
Ctrl+S 保存文件
Ctrl+Alt+S 另存为
Ctrl+Shift+S 保存所有文件
Ctrl+O 打开文件
Ctrl+N 新建立文件
Ctrl+F2 切换书签
F2 转到下一个书签
Shift+F2 转到上一个书签
CTRL+G 定位换行,偏移量
Ctrl+W 关闭当前文档
Alt+Shift+Arrow 键移箭头键或
ALT+鼠标左键单击列选择
F5 启动运行对话框
Ctrl+空格输入法切换
Alt+空格程序单击右键
Tab 插入缩进
Shift+Tab 删除缩进
Alt-Shift-Arrow 或
Ctrl +鼠标滚轮钮放大缩小
Ctrl +Keypad/恢复原来的大小
F11 全屏模式
Ctrl+Tab 下一个文档
Ctrl+Shift+Tab 上一个文档
Ctrl+Shift+Up 当前线向上移
Ctrl-Shift-Down 当前线向下移
Ctrl+Alt+F 折叠当前层次
Ctrl+Alt+Shift+F展开当前层次
Alt+0 折叠全部
Alt+Shift+0 展开全部
Alt+(1~8) 折叠级别（1~8）
Alt+Shift+(1~8) 展开级别（1~8）
Ctrl+BackSpace 删除开始词
Ctrl+Delete 删除结束词
Ctrl+Shift+BackSpace 删除至行
Ctrl+Shift+Delete 删除至行尾
CTRL+U 转换为小写
Ctrl+Shift+U 转换为大写
Ctrl+B 转至匹配的括号
Ctrl+Shift+R 的开始录制/停止录制宏
Ctrl+Shift+P 播放录制的宏
CTRL+Q 注释/取消注释
Ctrl+Shift+Q 值流评论
Ctrl+Shift+T 当前行复制到剪贴板
Ctrl+P 打印
Alt+F4 退出
Ctrl+I 分割线
Ctrl+J 连接行
Ctrl+Alt+R 从右边阅读
Ctrl+Alt+L 从左边阅读
F1 关于帮助

ldsea

2012年4月19日

两只皮鞋，两只皮鞋，跑得快，跑得快，一只变成酸奶、一只变成胶囊，真奇怪，真奇怪

海蓝博客

海蓝博客

Python 爬虫抓站记录（虾米，百度，豆瓣，新浪微博）

ldsea

2012年4月22日

不用安装oracle客户端也可以用plsql连接远程oracle

ldsea

2012年4月21日

谷歌2亿2千5百万用户ID遭曝光

ldsea

2012年4月20日

ldsea

2012年4月20日

Notepad++ 快捷键

ldsea

2012年4月19日