Wget
Viimati muudetud 03.05.2011
Sissejuhatus
GNU/Wget (või lihtsalt Wget) on programm, mis suudab veebi- ja ftp-serveritest faile hankida. Nimi (Wget) on tuletatud lühendist (World Wide Web) ja selle põhifunktsioonist GET (ingl.k. hankima).
Wget abil on võimalik hankida faile üle HTTP, HTTPS ja FTP protokolli, mis on kõige laiemalt levinud TCP/IP protokollid.
Wget sai alguse 1996. aastal, mil leidis aset veebi populaarsuse hüppeline kasv, põhjustades selle laialdase kasutuse Unix-i kasutajate seas.
Tänaseks on wget porditud mitmetesse erinevatesse keskkondadesse - Mac OS X 'i, Microsoft Windows 'i, OpenVMS 'i, MorphOS 'i ja AmigaOS 'i.
Wget võimalused
- Kasutajal seadistada, millised HTML ja XHTML linke GNU/Wget ära tunneks ja jälitaks;
- Teostada sünkroniseerimist failide FTP ja HTTP serverite vahel ning ühtlasi luua peegeldusi;
- Laadida faile alla üle aeglase ja/või ebakindla võrguühenduse. Ühenduse katkemise puhul ja selle taastumisel jätkab allalaadimist sealt, kus see pooleli jäi;
- Teostada failide allalaadimist tagaplaanil. Seda ka siis, kui kasutaja pole end sisseloginud;
- Failide laadimisel kasutusele võtta meta-märke;
- Rekursiivselt eemalasuva veebilehe kopeerimist arvuti kõvakettale, kus soovi korral Wget muudab HTML dokumendis leiduvad lingid sedasi, et need osutaksid kohalikele failidele. Võimaldades sedasi veebilehte vaadata ka võrguühenduse puudumisel;
- Failide tarimist läbi proxy serverite, mis omakorda vähendab võrgukoormust ja ühtlasi kiirendab failide kohalejõudmist.
Wget kasutamine [algajad > näited]
Wget laeb alla kõik aadressitel oleva informatsiooni mis talle on käsureal ette antud.
Wget käsu formaat:
wget [VÕTMED]... [URL]...
- URL-i allalaadimiseks internetist kasutatakse käsku wget [URL]
näide: wget http://www.itcollege.ee tulemus: root@ubuntu:~# wget http://www.itcollege.ee --2011-05-02 11:52:13-- http://www.itcollege.ee/ Resolving www.itcollege.ee... 193.40.194.205 Connecting to www.itcollege.ee|193.40.194.205|:80... connected. HTTP request sent, awaiting response... 200 OK Lengt: unspecified [text/html] Saving to: 'index.html' [ <=> ] 25,587 --.-K/s in 0.02s 2011-05-02 11:52:13 (1.09 Mb/s) - 'index.html' saved [25587]
- Rekursiivselt failide allalaadimiseks saab kasutada käsku:
näide: wget -r [ADDRESS_TO_DIRECTORY]
- Kui osutub vajalikuks suure andmefaili allalaadimine ja samal ajal on tegemist aeglase võrguühendusega, siis suure tõenäosusega eelpool mainitud käsk ebaõnnestub ühenduse katkemisel ja seda rohkem kui ühel korral. Vaikimisi üritab Wget allalaadimist teostada 20-l korral. Siinkohal võib määrata korduskatsete arvuks suurema arvu, mille tulemusel saab kindel olla, et fail laetakse alla kogumahus.
- Kui märkida korduste arvuks inf, siis jätkuvad allalaadimise katsed lõputul arvul.
näide: wget --tries=70 http://ftp.heanet.ie/pub/ubuntu-cdimage/releases/10.10/release/ubuntu-10.10-dvd-amd64.iso näide2: wget --tries=inf http://ftp.heanet.ie/pub/ubuntu-cdimage/releases/10.10/release/ubuntu-10.10-dvd-amd64.iso
- Siinkohal on kõige mõistlikum jätta Wget tagaplaanil tööle ning samal ajal on mõistlik kogu tegevus kirjutada logifaili (log). --tries=number asemel võib kasutada võtit -t
näide: wget -t 70 -o log http://ftp.heanet.ie/pub/ubuntu-cdimage/releases/10.10/release/ubuntu-10.10-dvd-amd64.iso &
- Kui siinkohal oli Wget hankimas ühte väga suurt faili, mille hankimine katkestati, siis saab jätkamiseks kasutada võtit -c:
näide: wget -c [ADDRESS_TO_FILE]
- Kui kasutaja oli allalaadimas tervet kausta, kus on tuhandeid faile ja failide allalaadimine ebaõnnestus põhjusel, et segati Wget'i tööd, siis saab kasutada käsklust, mille tulemusel ei hangi Wget faile, mis eelmisel katsel juba salvestati:
näide: wget -nc -r [ADDRESS_TO_DIRECTORY]
- Siinkohal võib kasutaja leida, et allalaadimisel kasutatakse kogu vaba ressurssi. See omakorda võib aeglustada teiste samas võrgus olevate inimeste tööd (võrguühendust). Sellisel juhul on väga otstarvekas märkida maksimaalne allalaadimiskiirus, mida rakendatakse faili(de) laadimisel.
näide: wget --limit-rate=200k http://ftp.heanet.ie/pub/ubuntu-cdimage/releases/10.10/release/ubuntu-10.10-dvd-amd64.iso tulemus: allalaadimise kiirus on limiteeritud maksimaalselt kuni 200k/s
- FTP-st failide kasutamine on samuti lihtne. Anonüümse FTP serveri puhul ei osutu vajalikuks kasutajatunnuse ja parooli määramine.
näide: wget ftp://ftp.linux.ee/index.html tulemus: root@ubuntu:~# wget ftp://ftp.linux.ee/index.html --2011-05-02 12:56:46-- ftp://linux.ee/index.html => 'index.html' Resolving linux.ee... 195.222.16.155 Connecting to linux.ee|195.222.16.155|:21... connected Logging in as anonymous ... Logged in! ==> SYST ... done. ==> PWD ... done ==> TYPE I ... done. ==> CWD not needed. ==> SIZE index.html ... 3002 ==> PASV ... done. ==> RETR index.html ... done. Length: 3002 (2.9K) (unauthoriative) 100%[===========================>] 3,002 --.-K/s in 0s 2011-05-02 12:56:47 (151 MB/s) 'index.html' saved [3002]
- Kui käsuna märkida kausta aadress, siis Wget salvestab kaustade nimekirja ja konvertib selle HTML formaati:
näide: wget ftp://ftp.linux.ee/ vaata faili: less index.html
- Kui tegemist pole anonüümse FTP serveriga, siis osutub vajalikuks kohe käsureal kasutajatunnuse ja parooli määramine. Käsklus siinkohal näeb välja järgmine:
wget -r -nd --user=USERNAME --password=PASSWORD [ADDRESS_TO_DIRECTORY/DIRECTORY]
- FTP-st terve kataloogi allalaadimisega tuleb Wget samuti toime:
näide: wget -r ftp://username:password@domain.com näide2: wget -m ftp://username:password@domain.com
- Kui arvutis on mõni fail ning soovid leida selles sisalduvaid URL-e, siis Wget võimaldab seda teha järgmiselt:
näide: wget -i URLe_sisaldava_faili_nimi.txt
- Kui kasutajal tekib soov ühest kaustast alla laadida kindla faililaiendiga faile, siis saab Wget ka sellega hakkama.
näide: wget -r -l1 --no-parent -A.PNG [ADDRESS_TO_DIRECTORY/DIRECTORY]
- Kui kasutaja leiab, et allalaetav veebileht sisaldab paljusid mittevajalikke faile kindla laiendiga, siis saab nende allalaadimise keelata. Kogu muu sisu laetakse alla.
näide: wget --reject=PNG [WEBSITE-TO-BE-DOWNLOADED]
- Kui kasutajal tekib soov kaustast, kus on näiteks 500 faili, alla laadida neist kümmekond, siis võib eelnevalt luua tekstifaili, mis sisaldab täpseid aadresse failideni. Seejärel tuleb anda Wget'ile käsklus, et hangitaks failis nimetatud failid.
näide: cat > hangi-soovitud-failid.txt URL1 URL2 URL3 ... CTRL + C wget -i hangi-soovitud-failid.txt
Kokkuvõte
Wget on väga hea käsureaprogramm failide hankimiseks internetist. Wget-i kasutamine algtasemel ei nõua arvutikasutajalt väga suuri teadmisi. Eelpool toodud artiklis on nimetatud peamised käsud, mis sobivad algkasutajatele Wget'ga tutvumiseks.
Kui tekib soov täieliku ülevaate saamiseks Wget poolt võimaldavatest funktsioonidest, siis võib käsureale tippida 'man wget' ja/või külastada GNU Wget kodulehte.
Kasutatud kirjandus
man wget
Kasulikke linke
http://www.gnu.org/software/wget/
http://www.gnu.org/software/wget/manual/wget.html
Autor
Tavo Toomemägi | A41