java如何爬取網(wǎng)頁(yè)
百度搜索引擎的原理其中之一就是定期的派出網(wǎng)絡(luò)爬蟲(chóng)到互聯(lián)網(wǎng)上去爬取網(wǎng)頁(yè),下面就讓學(xué)習(xí)啦小編教大家java如何爬取網(wǎng)頁(yè)吧。
java爬取網(wǎng)頁(yè)的方法
我希望輸入一個(gè)有效的網(wǎng)址后返回這一網(wǎng)址下的網(wǎng)頁(yè)源碼,則有代碼如圖:
通過(guò)網(wǎng)址連接到指定的網(wǎng)址
在運(yùn)行之前把開(kāi)發(fā)空間的的編碼改為UTF-8,否則編譯執(zhí)行返回的網(wǎng)頁(yè)中的中文會(huì)變成亂碼
連接成功后通過(guò)連接對(duì)象得到輸入流,讀出輸入流就可以得到網(wǎng)頁(yè)代碼
運(yùn)行后得到的網(wǎng)頁(yè)代碼如下
把返回的代碼復(fù)制到EditPlus中運(yùn)行一下看看
猜你感興趣的: