Semalt Experti juhendatud Chrome'i veebikaabitsite õpetus

Kui kasutate Google Chrome'i, on teie brauseril laiend, mis aitab veebilehti kraapida. Seda tuntakse kui '' Scrapper '' ja seda saab probleemideta kasutada. Scrapper aitab veebisaidi sisu kraapida ja tulemusi Google'i dokumentidesse üles laadida.

Kuidas Scraperi laiendiga veebisaiti sisse viia?

1. Valige Google Chrome'is Chrome'i veebipood;

2. Laiendites otsige '' Scrapper '';

3. Esimene otsingutulemus on laiend, mida tuntakse '' Scrapper '';

4. Valige nupp nimega '' Lisa Chrome'ile '';

5. Naaske Ühendkuningriigi parlamendiliikmete nimekirja;

6. Klõpsake järgmist linki ;

7. Otsige nüüd üks parlamendiliige ja veenduge, et kanne on märgitud;

8. Tehke paremklõps, et valida suvand "Kraapida sarnast ...";

9. Teises aknas ilmub skreeperi konsool;

10. Vaadake kraapitud konsoolist kraapitud sisu.

11. Sisu salvestamise tagamiseks Google'i arvutustabelina valige "Salvesta Google'i dokumentidesse ..."

Laiendatud kraapimine

Enne selle retsepti juurde jäämist on kasulik mõista HTML-i põhitõdesid. Selle lingi kaudu saate lugeda näiteks HTML-i lühitutvustust

Kujutame ette, et meid huvitavad kõik filmid, mille peaosas oli kuulus itaalia näitlejanna Asia Argento.

1. IMDB-s on väga üksikasjalik osalejate arhiiv. Asia Argento sait on: http://www.imdb.com/name/nm0000782/;

2. Siin saate vaadata kõiki näitlejanna mänginud rolle. Alustame huvitava teabe lammutamist;

3. Proovige seda kraapida ülalkirjeldatud viisil;

4. Näete, et nimekiri on natuke moonutatud. See on tingitud asjaolust, et siin olevat nimekirja saab üles ehitada erinevalt;

5. Suunake kaabitskonsooli juurde. Üleval vasakul näete väikest kasti, mis ütleb XPath;

6. Xpath on omamoodi päringkeel, mis töötab XML-i ja HTML-i puhul;

7. XPath aitab leida teid huvitavaid lehe osi. Järgmine asi on leida sobiv element ja kirjutada sellele XPath;

8. Nüüd korraldame oma laua;

9. Näete, et meie olemasolev XPath, millel on kõik vajalikud andmed, on "// div [3] / div [3] / div [2] / div";

10. XPath teavitab süsteemi HTML-dokumendi vaatamiseks ja kolmanda elemendi, seejärel teise elemendi ja kõigi nende valimiseks;

11. Kuid me sooviksime, et meie andmed eraldataks;

12. Selle tegemiseks kasutage konsooli veergude sektsiooni vanaraua jaoks;

13. Otsime kõigepealt välja meie pealkiri: Kasutage pealkirja kuvamiseks nuppu Inspekt Element;

14. Kontrollige sildi pealkirja. Lisage silt XPathi;

15. Lause näib toimivat asjakohaselt, seega tehke sellest esimene veerg;

16. Asendage jaotises "Veerud" esimese veeru nimi sõnaga "pealkiri".

17. Lisage sellele XPath;

18. Veeru osas on XPath-id suhtelised ja see tähendab, et element "./b" valib elemendi <b>

19. Lisage pealkirja veeru XPathi juurde "./b" ja valige "kraapima";

20. Jätkame siis aasta aega. Aastaid võib leida ühe ajavahemiku jooksul;

21. Looge uus veerg, valides pealkirja veeru kõrval väikese plussi;

22. Kasutades XPath "./span", loo veerg aasta jaoks;

23. Klõpsake kraapimist ja vaadake, kuidas aasta lisati;

24. Valmis!