用htmlparser 写个简单的 news爬虫 -凯发k8网页登录

其实程序员也懂得浪漫!
posts - 90, comments - 637, trackbacks - 0, articles - 2
  凯发k8网页登录-凯发天生赢家一触即发官网 :: 凯发k8网页登录首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

用htmlparser 写个简单的 news爬虫

posted on 2009-05-20 12:44 guanminglin@gmail.com 阅读(39751) 评论(61)     所属分类: javasejavaee
    有一段时间没写博客了,这几天回到学校我同学要赶着交毕业设计,让我帮他写个爬虫,专门抓搜狐的新闻,我用过爬虫,但是从来没有自己写过爬虫,于是google了一下,找到了一篇不错的文章: .  参考里面的代码,自己写了个简易的搜狐新闻爬虫。

    爬虫的主要工做就是到搜狐的新闻凯发k8网页登录首页上去抓取新闻,然后将新闻添加到数据库中。
代码其实很简单的:
linkparser.java
import com.sohu.sohunews;
import java.util.hashset;
import java.util.set;
import org.htmlparser.node;
import org.htmlparser.nodefilter;
import org.htmlparser.parser;
import org.htmlparser.filters.nodeclassfilter;
import org.htmlparser.filters.orfilter;
import org.htmlparser.tags.linktag;
import org.htmlparser.util.nodelist;
import org.htmlparser.util.parserexception;

/**
 *  这个类是用来搜集新闻链接地址的。将符合正则表达式的url添加到url数组中。
 * 
@author guanminglin
 
*/
public class linkparser {
    
// 获取一个网站上的链接,filter 用来过滤链接

    
public static set<string> extraclinks(string url, linkfilter filter) {

        set
<string> links = new hashset<string>();
        
try {
            parser parser 
= new parser(url);
            parser.setencoding(
"gb2312");
            
// 过滤 标签的 filter,用来提取 frame 标签里的 src 属性所表示的链接
            nodefilter framefilter = new nodefilter() {

                
public boolean accept(node node) {
                    
if (node.gettext().startswith("frame src=")) {
                        
return true;
                    } 
else {
                        
return false;
                    }
                }
            };
            
// orfilter 来设置过滤 




评论

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-20 13:35 by
能否将这个爬虫项目的源码发给我学习学习?我的email是mrjiangyun@gmail.com。谢谢了!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-20 14:57 by
能否将这个爬虫项目的源码发给我学习?maikelsong@163.com。谢谢了!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-20 17:30 by
能否将这个爬虫项目的源码发给我学习?anzn20@163.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-20 17:45 by
高人,jerryhu2002@163.com,非常感谢

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-20 17:54 by
大哥,soade@foxmail.com,谢谢!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-20 18:06 by
能否发一份到kalman03@163.com,谢谢

# re: 用htmlparser 写个简单的 news爬虫[未登录]  回复     

2009-05-20 19:55 by
也发我一份 junjun231953@163.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 08:49 by
老兄给我一份啊,学习了!
unwm@tom.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 08:51 by
谢谢!xhfptu@126.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 08:57 by
能否也经我一份啊——abc_cjf@126.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 09:09 by
也给我发一份,谢谢!wangcll@yeah.net

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 09:29 by
麻烦大哥给我发一份,谢谢2000_sea@163.com

# re: 用htmlparser 写个简单的 news爬虫[未登录]  回复     

2009-05-21 09:52 by

大哥,写很不错,能否把这个爬虫项目的源码发给我学习?
本人的邮箱是:125_feiying@163.com
谢谢!

# re: 用htmlparser 写个简单的 news爬虫[未登录]  回复     

2009-05-21 10:48 by
能否将这个爬虫项目的源码发给我学习学习?我的email是yanbeifei168@163.com。谢谢了!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 11:01 by 日月雨林@gmail.com
朋友们,项目源码已近发送到你们的邮箱当中了。请注意查收!!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 11:08 by
3100949@qq.com
能否把这个爬虫项目的源码发给我学习?

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 11:09 by
谢谢!nmgmax@126.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 11:29 by
谢谢weishugui@gmail.com

# re: 用htmlparser 写个简单的 news爬虫[未登录]  回复     

2009-05-21 11:40 by
thank you !!!

yxxcrtd@qq.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 11:46 by 日月雨林@gmail.com
@mao
@nmgmax
@seesea
@yang
项目源码已近发送到你们的邮箱当中了。请注意查收!!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 12:23 by
yuanyuan110.l@gmail.com
能否把这个爬虫项目的源码发给我学习?

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 13:05 by
老兄,能否给我发一份爬虫代码吗?我的邮箱:liuze@msn.com,谢谢了!

# re: 用htmlparser 写个简单的 news爬虫[未登录]  回复     

2009-05-21 13:06 by
已经收到,谢谢!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 13:11 by
大哥,也给我发一份吧:
helloyuhao@gmail.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 13:15 by
大哥,给一份吧
lovellj2002@163.com

先谢谢了.

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 15:40 by
给小弟也发一份吧、
formulawang@yahoo.com.cn
先谢过了

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 15:45 by
我也想要一份,jiao_bo21@sina.com,谢谢老兄!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 16:06 by
谢谢了,liu_0909@163.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-21 17:36 by
jefyjiang@hotmail.com发我一份学习一下,谢谢

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 10:36 by
tomcat@yeah.net
谢谢

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 14:41 by
ccbobocat@gmail.com
谢谢

# re: 用htmlparser 写个简单的 news爬虫[未登录]  回复     

2009-05-22 15:45 by
写的不错,希望老兄可以的话,能够发一份给我,
一直想研究爬虫呢,真是懒啊,o(∩_∩)o哈哈~
guofangjia@shdv.com
谢谢了

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 16:19 by ゞ沉默是金ゞ
bhdxyjg@126.com,谢谢了!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 16:26 by 日月雨林@gmail.com
@lala
大家共同交流!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 17:36 by
hai126@qq.com,我也想和大家交流哦..呵呵.

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 17:37 by
老兄,能否给我发一份爬虫代码吗?我的邮箱:lzhangq@msn.com,谢谢了!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 17:38 by
我也想要一份...123qq321@qq.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 17:39 by
我可以要一份吗?182407555@qq.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 17:40 by
9755425202qq.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-22 20:25 by
想研究下,麻烦楼主 发份给我。谢谢。
huadiaoyue@yahoo.cn

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-23 11:14 by 日月雨林@gmail.com
@新开传世私服
@传世私服
@魔兽私服
请检查你们地址是否真确,你们的邮件发送不了!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-23 22:23 by
想用一下这个爬虫,gengqkun@yahoo.com.cn.
多谢!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-24 20:13 by
多谢多谢,请顺道发我一份pcccit@qq.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-24 23:35 by
想学习下这个爬虫,496172717@qq.com
谢谢!

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-25 00:16 by
也想看看这个。可否给我也发一份。zweihust@gmail.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-25 09:57 by
我也想要一份源码 谢谢!
fspwp0730@gmail.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-25 10:25 by
同上,0_7734@163.com,谢谢~

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-25 12:10 by
谢谢了
zeng_yixing@163.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-25 14:50 by
谢谢了,我的邮箱是: wszcxli@gmail.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-25 21:45 by
很不错啊,想学习学习,谢谢了!
397655387@qq.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-26 05:09 by
给我也弄一份学习学习吧.
gensun.cc@gmail.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-26 14:23 by
给我一个啊 我来学习一下
route_wu@hotmail.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-28 12:07 by
哇 您好厲害哦
看到他們都在索要這個項目,
我可不可以也能得到一些榮幸呢?
kenlhb@gmail.com
謝謝

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-05-30 21:39 by
也想看看这个。可否给我也发一份。你太牛了 崇拜 谢谢 kzq87@163.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-06-01 01:04 by
最近在学这个,因为要做课程设计,所以恳请楼主也发我一份,万分感谢~
bumengxin@126.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-06-04 00:30 by
能不能发把项目代码发到我的邮箱:
jiangzhw2008#yeah.net (#换为@)
谢谢。

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-06-08 19:46 by
同求rar.zip.7z@gmail.com

# re: 用htmlparser 写个简单的 news爬虫[未登录]  回复     

2009-06-10 12:29 by
最近在学这个,所以恳请楼主也发我一份,万分感谢~
phil1233@126.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-06-10 17:38 by
能不能发把项目代码发到我的邮箱:
jtrwl@126.com
谢谢。

# re: 用htmlparser 写个简单的 news爬虫[未登录]  回复     

2009-06-11 13:44 by
兄弟,也发一份吧!
pan19849529@126.com

# re: 用htmlparser 写个简单的 news爬虫  回复     

2009-10-20 11:24 by
麻烦楼主给我发份,谢谢
email:blameswood@hotmail.com
网站地图