Java Spider/抓取or采集网页内容
[ 2006-05-31 21:10:18 | Author: 振华 ]
如果机房够多,可以写个循环,采集Google、Yahoo、baidu
不需要Google的API,也没有1000次限制,这个抓取就和实际开启浏览器访问一样。如果频繁访问google也有罪,那就没话说了
另外Google和Yahoo的编码方式有些复杂,Google采用Unicode的通用编码,中文的处理方式和百度不同,百度可以轻松抓取到相应的结果,如果要获得google的关键词结果数,则要和它的编解码方式匹配才可以,百度的就没这个问题。
只是原理上实现,对网页编码没有认真处理,所以抓取一些页面时会出现乱码的情况。
Read More...
不需要Google的API,也没有1000次限制,这个抓取就和实际开启浏览器访问一样。如果频繁访问google也有罪,那就没话说了
另外Google和Yahoo的编码方式有些复杂,Google采用Unicode的通用编码,中文的处理方式和百度不同,百度可以轻松抓取到相应的结果,如果要获得google的关键词结果数,则要和它的编解码方式匹配才可以,百度的就没这个问题。
只是原理上实现,对网页编码没有认真处理,所以抓取一些页面时会出现乱码的情况。
public StringBuffer getResponse(String address) {
StringBuffer list = new StringBuffer();
try {
url = new URL(address);
urlconn = (java.net.HttpURLConnection) url.openConnection();
...StringBuffer list = new StringBuffer();
try {
url = new URL(address);
urlconn = (java.net.HttpURLConnection) url.openConnection();
Read More...
Google查询请求参数
[ 2006-05-31 20:29:50 | Author: 振华 ]
| q | $query (您的请求) | 用于搜索的字符串 |
| Start | 从0 到结果总数 | 指定搜索的结果显示开始于某一个点。实际上这个就是google用来分页的参数了。google没有page这个参数 |
| num/maxResults | 1 -- 100 | 每页显示的结果数 |
| filter | O or 1 | 是否显示过滤相似结果,1为是,0为否。如果为1,google将会让你在搜索结果的最下面选择将省略的结果纳入搜索范围后再重新搜索 |
| restrict | "限制代码".例子: |
Read More...
Google 的中文编码方式
[ 2006-05-31 20:13:49 | Author: 振华 ]
/**
* Google 中文URL参数处理
* @param s
* @return
*/
public static String getUtf8Str(String s) {
String ret = null;
try {
ret = java.net.URLEncoder.encode(s, "utf-8");
} catch (UnsupportedEncodingException ex) {
}
return ret;
}
/**
* 对UTF-8进行中文解码
* @param s
* @return
*/
public static String getStrUtf8(String s) {
String ret = null;
try {
ret = java.net.URLDecoder.decode(s, "utf-8");
...* Google 中文URL参数处理
* @param s
* @return
*/
public static String getUtf8Str(String s) {
String ret = null;
try {
ret = java.net.URLEncoder.encode(s, "utf-8");
} catch (UnsupportedEncodingException ex) {
}
return ret;
}
/**
* 对UTF-8进行中文解码
* @param s
* @return
*/
public static String getStrUtf8(String s) {
String ret = null;
try {
ret = java.net.URLDecoder.decode(s, "utf-8");
Read More...
Java 转码
Read More...
public static String convert(String str) {
String tmp;
StringBuffer sb = new StringBuffer(1000);
char c;
int i, j;
sb.setLength(0);
for (i = 0; i < str.length(); i++) {
c = str.charAt(i);
if (c > 255) {
sb.append("\\u");
j = (c >>> 8);
tmp = Integer.toHexString(j);
if (tmp.length() == 1)
sb.append("0");
sb.append(tmp);
...String tmp;
StringBuffer sb = new StringBuffer(1000);
char c;
int i, j;
sb.setLength(0);
for (i = 0; i < str.length(); i++) {
c = str.charAt(i);
if (c > 255) {
sb.append("\\u");
j = (c >>> 8);
tmp = Integer.toHexString(j);
if (tmp.length() == 1)
sb.append("0");
sb.append(tmp);
Read More...
获取Google/Yahoo/Baidu搜索结果数
[ 2006-05-30 21:24:57 | Author: 振华 ]
输入一个关键字,能立刻得到Google、Yahoo或baidu或其他一切搜索引擎的搜索结果数.
见:http://zhenhua.org/article.asp?id=343
见:http://zhenhua.org/article.asp?id=343
正则 匹配介于两者之间
[ 2006-05-30 21:22:28 | Author: 振华 ]
1.包含开始和结束字符串
2.不包含开始和结束字符串,只取中间的内容
3.
Read More...
开始字符串[\\W*\\w*]*结束字符串
2.不包含开始和结束字符串,只取中间的内容
(?<=开始字符串).*?(?=结束字符串)
3.
String str = "[img]http://xxxxx.com/xxxx1.jpg[/img]" +
"[img]http://xxxxx.com/xxxx2.jpg [/img]" +
"[img]http://xxxxx.com/xxxx3.jpg [/img]" +
"[img]http://xxxxx.com/xxxx4.jpg [/img]" +
"[img]http://xxxxx.com/xxxx5.jpg [/img]" +
"[img]http://xxxxx.com/xxxx6.jpg [/img]";
..."[img]http://xxxxx.com/xxxx2.jpg [/img]" +
"[img]http://xxxxx.com/xxxx3.jpg [/img]" +
"[img]http://xxxxx.com/xxxx4.jpg [/img]" +
"[img]http://xxxxx.com/xxxx5.jpg [/img]" +
"[img]http://xxxxx.com/xxxx6.jpg [/img]";
Read More...
干,这个流氓有点猛!
[ 2006-05-28 18:41:50 | Author: 振华 ]
你还在用所谓的安全工具来防备流氓?你还认为你只要把电脑防护的固若金汤就可以抵挡流氓的入侵?你甚至还以为你洁身自好流氓就不来非礼?
最近从一个小兄弟那里搞到一份资料,流氓的宣传资料,很有意思,拿出来和大家分享一下,你上网吗?你只要上网,流氓就能非礼你。
为保证公正客观,文章中使用大量直接从该公司拉广告的宣传资料拷屏的图片作为佐证,所有图片内容未做任何修饰处理。...
Read More...
最近从一个小兄弟那里搞到一份资料,流氓的宣传资料,很有意思,拿出来和大家分享一下,你上网吗?你只要上网,流氓就能非礼你。
为保证公正客观,文章中使用大量直接从该公司拉广告的宣传资料拷屏的图片作为佐证,所有图片内容未做任何修饰处理。...
Read More...
这又是一个容易引起公愤的文章,不多说了,以下几个问题,看看你对网络的理解力。
1.就全球而言,google的实际流量没有yahoo高,google的广告形式没有yahoo多,google的网页广告位置也没有yahoo多,google的广告费用计算方式也没有yahoo灵活,但是google的网络广告收入却高于yahoo,而且广告主还反映google的效果好,请问这是为什么?
2. DoubleClick, Overture都是网络行业里风云一时的企业,最后相继败落,要不挣扎在一个很小的规模上,要不被收购,根本原因在哪里?
3.流量相当的网址站,音乐站,小说站,哪个最有价值?哪个没有价值,价值体现在哪里?
4. 假设你拥有了超级牛B 的搜索引擎技术产品,拥有了足够的带宽,服务器和运营环境,现在,你没有流量,你准备从几方面入手,获得流量通路。你知道的通路有哪些?
5. 如果你想通过网络做一个面向品牌的广告,成本最低,传播效果最好的途径是什么?典型范例是什么?
6.caoz说过,一个彻底免费的桌面安全产品,在不耍流氓的情况下,一样可以赚钱,这个问题有人想明白了没?
7.互联网的本质是什么?
...
Read More...
1.就全球而言,google的实际流量没有yahoo高,google的广告形式没有yahoo多,google的网页广告位置也没有yahoo多,google的广告费用计算方式也没有yahoo灵活,但是google的网络广告收入却高于yahoo,而且广告主还反映google的效果好,请问这是为什么?
2. DoubleClick, Overture都是网络行业里风云一时的企业,最后相继败落,要不挣扎在一个很小的规模上,要不被收购,根本原因在哪里?
3.流量相当的网址站,音乐站,小说站,哪个最有价值?哪个没有价值,价值体现在哪里?
4. 假设你拥有了超级牛B 的搜索引擎技术产品,拥有了足够的带宽,服务器和运营环境,现在,你没有流量,你准备从几方面入手,获得流量通路。你知道的通路有哪些?
5. 如果你想通过网络做一个面向品牌的广告,成本最低,传播效果最好的途径是什么?典型范例是什么?
6.caoz说过,一个彻底免费的桌面安全产品,在不耍流氓的情况下,一样可以赚钱,这个问题有人想明白了没?
7.互联网的本质是什么?
...
Read More...












