搜索 社区服务 统计排行 帮助
  • 1371阅读
  • 8回复

[下载]下圖機器人

楼层直达
级别: 版主
注册时间:
2002-12-02
在线时间:
0小时
发帖:
3002

載點: http://d.turboupload.com/d/975283/AutoDownloadRoboot.7z.html

基本使用請見 圖1~4

功能:
.下載方式: 計 3.5種半自動下載方式 + 3種作業模式
.排除存檔選項: 關鍵字排除、同檔案判別排除、同檔名排除/自動重新命名、小於此像數時排除
.支援Unicode的看圖 (檔案命名、檔案夾命名)
.現有圖檔之 (關鍵字)載入列表、更名、看圖
.自動更正URL命名規則
.自動填表 (反白後拖曳填表、剪貼簿監視自動填表)
.批次下載


<<作業方式>>
[計數模式]
(1) 當只填上 "抓取圖檔" 時並按下開始即會使用此模式 (其使用的是 語法分析作業模式)
比如 已知圖檔URL是 Http://xyz/a01.jpg ~ Http://xyz/a10.jpg 這類
就可以使用此模式
(2) 當已知圖檔URL是 Http://xyz/a0102.jpg ~ Http://xyz/a0203.jpg 之情況
請針對欲計數的數字部分 用滑鼠點取成 a|01||02|.jpg,即可 (在a及0間點一下就會自動加進個 "分割元" ※預設是 "|")
※重試次數下有兩個欄位,右邊那個欄位當為 計數模式 時,是指當嘗試抓取的編號不存在時,續數的次數
,這兩個欄位不同的作業方式會有不同的意義,原則上的意義就是 "錯誤嘗試次數"

[全部下載模式]
當只填上 "啟始網址" 時並按下開始即會使用此模式 (其使用的是 瀏覽器核心模式)
比如 當想把網址 Http://xyz/index.htm 下的圖片全部下載回來時
就可以使用此模式
※設定 下探[]層 可以指定 向下探測的子網頁階層數

[指定模式]
"抓取圖檔" & "啟始網址" 皆填取 就會使用此模式 (可選擇使用 瀏覽器核心 或 語法分析作業 模式)
此模式的原理是 特定目標性抓取,不會抓取不相關的檔案 可使用 [目標張數]之欄位 來確認是否全部下載到了
※一般狀況下建議使用此模式

最後還有半個作業方式
其只作業於 語法分析作業模式 上
比如網址是 Http://xyz/ABC001-01.htm ~ Http://xyz/ABC005-10.htm
即可勾選"分割元" 並用滑鼠點一下 區別出 欲計數的數字部分
比如: 使之變成 |001|-|01|.htm
如此第二回就會嘗試連結 Http://xyz/ABC002-02.htm ...

※語法分析作業模式 可使用自己編寫的外掛濾鏡 來分析特定 網頁

====<作業方式>====
[圖檔比對]
原則上只要按下 [開始比對] 並指定 啟始檔案夾 就可以了
如果你的檔案夾是分散的,比如位於 C:\Pic1\ 及 E:\TempPic\
此時請用 [啟始檔案(夾)] 來追加成 C:\Pic1\;E:\TempPic\
※當然也可自己打上,請以 ;號做區隔,而 picc.pcd資料庫 檔會建立在 C:\Pic1\下
※注意: 經試驗證實 picc.pcd資料庫檔不可建於 非本地windows語系之 檔案夾下
例: 繁體版windows下 資料庫檔礙於 VB6.0之限制 不能建檔於 C:\そらぅた\下
但比對作業不用擔心之(適用 UniCode檔案及檔案夾)

如果先前已建立過 分析資料庫
程式會沿用此資料庫並分析是否有新進成員檔
(目前版本不會在分析時自動修改資料庫檔,所以資料庫只會越來越大不會智慧性縮減
所以太多不符合資料庫的情況時,建議自行刪除 picc.pcd資料庫檔)
※V3.1.3可在使用 刪除按鈕時 刪減相對應資料庫檔案記錄

分析完成後點一下 建議保留清單 此時旁邊的 建議刪除清單 會成對的選取之(可能的情況是 一比一 或 一比多)
前面會有編號可供理解,比如
建議刪除清單 建議保留清單
0* c:\1.jpg0* d:\a.jpg
0* g:\abc.jpg 1* d:\z.jpg
1* c:\2.jpg

點 0* d:\a.jpg 的話 0* c:\1.jpg 及 0* g:\abc.jpg 就會選取之
此時點取 0* c:\1.jpg 及 0* g:\abc.jpg 做確認無誤後
(確認d:\a.jpg 與 c:\1.jpg及g:\abc.jpg 是重複的構圖)
可按下中間的 刪除鈕來刪除之 (刪除c:\1.jpg及g:\abc.jpg)
※此時 c:\1.jpg及g:\abc.jpg 可能會被取消反白,只要再點0* d:\a.jpg一次即可快速選取

經實際試驗 423張 大小圖檔 使用快速模式 花費4分53秒時間,準確率高達 95%以上 (CPU AMD2000+、1G RAM)

例: 下面兩構圖是一樣的,但寬x高不同

如勾上 "只交相比對 同 寬、高 圖" 將不會做這類形的比對

※v3.1.3版 因應 PaintX.dll 的部分不穩定現像
選項裡 多了個 使用PaintX解圖 核取框選項
如果網友沒有特殊圖檔格式需求(PNG.PSD.TGA.PCX.WMF.IFF.PGM.PICT.SGI.TIFF)
建議保持不使用之
官方網址 http://www.paintlib.de/paintlib/ ,如有新版朋友們可自行更新之
==================================

<批次任務>
.填好欄位後想把不同任務一次執行(也就是事後一次執行) 即可按下 [排程]
當有不想要的任務 可按那小小的數字鍵 刪除

.按 排程 旁的"上"、"下"鍵 可選擇瀏覽 已記錄的任務
修改後再按一次 [排程] 即可完成修改

.最後只要按下 [開始] 即可一次執行所有任務
※此作業必須將 [開始]及[排程] 中的 核取方塊打勾,才能使用之 ;當新增 [排程] 時此 核取方塊會自動打勾

.當按下[開始] 做批次執行時,程式會先刪除第一條任務,所以如不幸下載失敗
就需重新填寫,因此建議 做批次執行 先備份一下 BatMission.lst
※當程式完全除錯完成後,會針對這點不便做改善設計
==================================

<更名功能>
.在開始下載前,可按下[更名] 使用此功能
比如要下載 http://ABC/01.jpg
下載到你的硬碟後想變成 MM010.jpg
此時主名稱填上 MM ※而旁邊的### 確定是三位數
[讀]旁邊的 數字欄位 填上 10

.用 "存檔位置" 旁的各按鈕 或 右鍵貼上 指定 存檔位置後
按下 縮圖 旁邊的[讀] 即可讀入 "存檔位置" 內的 支援圖檔
想更名的話按下 [更名] 即可使用相關欄位 重新循序命名 (此時 [讀] 會變成 [更])
最後只要按下 [更] 即可

※[更名] 按下後可填旁邊的主名稱(也可空著),另外也可填
※[更名]旁的主名稱欄位有一個向下按鍵,可選擇既定的更名方式,有: 時間、亂數、自訂等取名方式
當已選取 時間、亂數 時又反悔不想使用時,必須選自訂來取消之
再旁邊的 ###是表示循序編號的位數,比如填上 ## 則表示編號範圍可從 00~99
也可使用其他字元,比如 &&&、+++、@@@ 只是意義不大...
※[讀]旁邊的 數字欄位,這個欄位其意義是 循序編號的起使值 設定用

<讀>
.如果想讀入"C:\下圖機器人" 內的圖檔可按下[讀]
如果檔案夾內有以下檔案 ABC.jpg、again01.bmp、01-a.jpg
例1: 鍵入"C:\下圖機器人:A*" 按下[讀]就會讀入 ABC.jpg、again.bmp 兩個檔案
例2: 鍵入"C:\下圖機器人:01" 按下[讀]就會讀入 again01.bmp、01-a.jpg 兩個檔案
例3: 內容是"C:\下圖機器人" 按下[讀]就會讀入 ABC.jpg、again01.bmp、01-a.jpg
==================================

<排除規則>
.關鍵字 "[加入][刪除]"
例: 加入 "-resize." 關鍵字時
如下載圖URL是 http://xyz/a-resize.jpg 可發現符合排除關鍵字
此時就會不以存檔 ;欲刪除其關鍵字之使用 請選定後按下 [刪除]即可

."小於□之圖" 啟用後下方的欄位即可使用,單位是byte ※1MB = 1024KB(等於1024Byte)

."同大小的圖檔" 可使用程式右上角的 []選項 內的 "圖片相似度(%)"
其原理是先比對檔案大小 再比對WxH 最後再抽樣比對(x,y)像素 ※當為100時會作完全比對

."已存在之檔名" 會在下載前檢查該檔名是否已存在(作為是否下載依據)
如果不勾取,又碰上該檔名已存在之事實 新檔會於名稱後加個 (編號)
比如 ABC.jpg 已存在,新檔名即更名成 ABC(1).jpg

."小於[][]" 當兩個輸入欄都有大於1的數字時,會以兩者乘積作為比對依據 (也就是像數比對)
否則會比對單邊長度,比如 [0][400] 是指新圖之高不足 400piexl時不以存檔

."使用重試功能" 一些特殊情況時可以使用(取消核取)之,如此 下載失敗時將不會做第二次下載嘗試
==================================

<自動翻頁關鍵字(句)>
頁碼增減模式:
經分析 大部分專業圖庫網頁 翻下一頁都是以 "下一頁" 當作自動翻頁關鍵字
但也有例外而是以編號為關鍵字
(一般像是 1 2 3 4 5 下一頁、而例外則是 1 2 3 4 5)
此時就可使用之
像是非索引頁面的圖庫網頁設計可能是 可愛的MM(1) 為翻頁關鍵字 而下一頁則變成 可愛的MM(2)
此時也可使用此功能

注意: 此功能需於下載前手動選取之,並根據實際情況填寫啟始頁碼
至於有其他關鍵字的話請點選(自訂) 並在旁邊欄位貼上 翻頁關鍵字


<其他注意事項>
一:
shdocvw.dll、msscript.ocx、MSINET.OCX、FM20.DLL、MSCOMCTL.OCX
都是要註冊到windows登入檔的元件檔
比如 Windows XP: 開始->執行->Regsvr32 shdocvw.dll
載點: http://d.turboupload.com/d/974826/vb_dll.7z.html
如無法下載
可到這下 http://d.turboupload.com/d/731199/system32.7z.html
解壓到 C:\WINDOWS\system32
※如Windows內已有此檔案,可不用覆蓋之

二:
PaintX.dll 是一個Free(應該是啦...^o^")且需要 Regsvr32 PaintX.dll 的元件檔
但程式已加入判讀是否自動註冊的機能
原則上使用者不需在意
(也因此 當不能正常作業時建議使用者自行將檔案複製到 C:\WINDOWS\system32下並Regsvr32 PaintX.dll註冊之)
經試驗 PaintX.dll有微小的機率會造成程式終結的情況

三: 原則上只要將滑鼠停在相關控制項上,就會彈出 簡單說明
.所有的 [R] 都是該欄位的重置功能鈕

.啟始網址輸入欄上的[O] 是抓取該網址 原始檔 進而分析製作 外掛濾鏡用的
※因為其特性其實也可以填上 圖檔URL 當作單獨下載用

.當按下 [離開] 時,會記錄下來大部分的欄位狀態 (如按下視窗右上角的 [X]則不會)

.[排程]左左邊的 [S]是記錄你習慣的 "存檔位置" 啟始點 (因為按下[離開]時不會記錄這個欄位)
當"存檔位置"想恢復這個啟始點時,則按下旁邊的 [R]即可

.預覽 左邊有兩個核取方塊,第一個是當下載後想自動預覽圖片時可勾選之
此時必須配合第二個核取方塊,以打開預覽圖框
再來是 縮圖核取方塊 勾選的話會自動把圖 整個區域放在預覽圖框,否則就是 1:1情況
此時(1:1)可在預覽圖框上按下滑鼠左鍵並移動看圖之


有操作上的不懂及bugs歡迎提出 ~thx~

级别: 工作组
注册时间:
2004-11-20
在线时间:
25小时
发帖:
18819
只看该作者 1楼 发表于: 2006-09-11
多谢LZ的程序 收下了 嗯~

级别: 新手上路
注册时间:
2006-09-09
在线时间:
0小时
发帖:
26
只看该作者 2楼 发表于: 2006-09-11
感觉挺不错,谢谢楼主。
级别: 版主
注册时间:
2002-12-02
在线时间:
0小时
发帖:
3002
只看该作者 3楼 发表于: 2006-09-21
更新: Ver 3.2.1
.啟用圖檔比對: [對調]功能之完成 (檔想刪除的檔案是 "建議保留"者,則請按下 對調即可交換兩邊)
.針對圖檔比對: 之 [刪除]、[全部刪除] 改成丟到 "資源回收桶" (可避免事後後悔)
.之前的 PaintX.dll 已摒棄,改用 GflAx.dll (詳見下...或至其官方網站獲得更多資訊)
.一些細微的 Bug改正 (包括圖檔比對作業、錯誤回報...)


載點: http://d.turboupload.com/d/1005844/AutoDownloadRoboot.7z.html

其他詳見 readme.txt

级别: 超级版主
注册时间:
2004-07-25
在线时间:
121小时
发帖:
3898
只看该作者 4楼 发表于: 2006-09-26
好久不见weilai姐法帖,收下来研究先~ 不过这个对于那种有密码的相册比如网易好象搞不定咯~~

级别: 侠客
注册时间:
2003-03-27
在线时间:
0小时
发帖:
462
只看该作者 5楼 发表于: 2006-09-27

软件放到别人的电脑上可以正常运行,我的运行就会出现以上问题[/KH]
不知道什么问题都重装过电脑了:confused:
级别: 新手上路
注册时间:
2003-06-23
在线时间:
1小时
发帖:
2882
只看该作者 6楼 发表于: 2006-09-28
引用
最初由 shinjico 发布
好久不见weilai姐法帖,收下来研究先~ 不过这个对于那种有密码的相册比如网易好象搞不定咯~~


网易现在玩ajax,用这个你根本别想..

不学无术中..

eMule ID:[eDtoon][CHN]adamhj@eMule-Official
级别: 版主
注册时间:
2002-12-02
在线时间:
0小时
发帖:
3002
只看该作者 7楼 发表于: 2006-09-28
正在加上一些小功能 及 除錯
...待一兩天就會上傳一個 "安裝版"的成品

级别: 工作组
注册时间:
2003-12-14
在线时间:
1小时
发帖:
2188
只看该作者 8楼 发表于: 2006-09-28
不知怎的 我总是下不全...

var datas=17;
var picurl="/ok-comic01/h/hyrz/act_324/99770_001NBysKHe.jpg";
var picurl1="/ok-comic01/h/hyrz/act_324/99770_002OZfbmDE.jpg";
var ComicListID=19690;
var ComicID=168;

另外像这种隐藏图片Server地址的网页也无法分析
HTML: http://dm.99770.com/Comic/168/19690/1.htm?v=1*s=9
IMAGE: http://202.106.62.85:6812//ok-comic01/h/hyrz/act_324/99770_001NBysKHe.jpg

可否考虑自己填写Image Server地址

                        
Please call me "小沙"  ^^ | FalconIA's BASE | BLOG (自家用)                    


快速回复

限150 字节
上一个 下一个