Semalt - Cum să scrâșniți paginile web?

Beautiful Soup este o bibliotecă Python folosită pe scară largă pentru a razui paginile web prin crearea unui arbore de analiză din documente XML și HTML. Scraping-ul web, o tehnică de extragere a datelor de pe site-uri și pagini web, este utilizat pe scară largă în câmpurile de analiză și gestionare a datelor. În majoritatea cazurilor, limbajul de programare Python este o condiție prealabilă în știința datelor.

Python 3 are instrumente și module de razuire pe care le puteți aplica proiectului dvs. de gestionare a datelor. În prezent funcționează ca Beautiful Soup 4, acest modul este compatibil atât cu Python 3 cât și cu Python 2.7. Modulul Beautiful Soup 4 este, de asemenea, capabil să creeze un arbore de analiză pentru supa de etichete care nu este închisă. În acest tutorial, veți învăța cum să zgâriați pagina și să scrieți datele răzuite într-un fișier CSV.

Noțiuni de bază

Pentru a începe, configurați un server sau un mediu local de codificare Python pe computer. Ar trebui să instalați, de asemenea, modulul Beautiful Soup and Requests pe mașina dvs. Cunoașterea lucrării cu ambele module este, de asemenea, o condiție necesară. Familiarizarea cu structura și etichetarea HTML este de asemenea un avantaj.

Înțelegerea datelor dvs.

În acest context, datele reale din Galeria Națională de Artă vor fi utilizate pentru a vă ajuta să înțelegeți cum să utilizați Beautiful Soup 4. National Gallery of Art cuprinde 120.000 de piese realizate de aproximativ 13.000 de artiști. Arta are sediul în Washington DC, Statele Unite.

Extragerea de date web cu Beautiful Soup nu este atât de complicată. De exemplu, dacă vă concentrați pe litera Z, marcați și notați numele de pe listă. În acest caz, prenumele este Zabaglia, Niccola. Pentru consecvență, indicați numărul de pagini și numele ultimului artist de pe pagina respectivă.

Cum să importați bibliotecile Cereri și Supa Frumoasă

Pentru a importa biblioteci, activați-vă mediul de programare Python 3. Verificați să vă asigurați că vă aflați în același director cu mediul de programare. Rulați următoarea comandă pentru a începe. my_env / bin / activa.

Creați un nou fișier și începeți să importați bibliotecile Beautiful Soup and Request. Biblioteca de solicitări vă va permite să utilizați HTTP în cadrul programelor Python în formate lizibile. Beautiful Soup, pe de altă parte, funcționează pentru a zgâria rapid paginile. Utilizați bs4 pentru a importa supă frumoasă.

Cum să colectați și să analizați o pagină web

Utilizarea Cererilor colectează URL-ul primei tale pagini. URL-ul primei pagini va fi alocat paginii variabile. Construiți un obiect BeautifulSoup din Requests și analizați obiectul din analizorul Python.

În acest tutorial, scopul este de a colecta link-uri și numele artiștilor. De exemplu, puteți colecta datele și naționalitățile artiștilor. Pentru utilizatorii de Windows, faceți clic dreapta pe numele artistului. În acest caz, utilizați Zabaglia, Niccola. Pentru utilizatorii Mac OS, atingeți „CTRL” și faceți clic pe nume. Faceți clic pe meniul „Inspectați elementul” pe care apare ferestrele de pe ecran pentru a accesa instrumentele dezvoltatorilor web. Printează numele artistului pentru a face Supa frumoasă să-și procese rapid un copac.

Îndepărtarea legăturilor de jos

Pentru a elimina legăturile de jos de pe pagina dvs. web, inspectați DOM făcând clic dreapta pe element. Veți identifica că linkurile sunt sub un tabel HTML. Folosind supă frumoasă, folosiți „metoda descompunere” pentru a elimina etichetele din arborele de analiză.

Cum să trageți conținut dintr-o etichetă

Nu trebuie să imprimați întreaga etichetă a linkului, utilizați Beautiful Soup pentru a elimina materialul de pe o etichetă. De asemenea, puteți captura adrese URL asociate artiștilor folosind Beautiful Soup 4.

Captarea datelor razuite într-un fișier CSV

Fișierul CSV vă va permite să stocați date structurate într-un text simplu, un format care este utilizat în mare parte pentru fișele de date. Sunt recomandate cunoștințe despre gestionarea fișierelor cu text simplu în Python.

Extragerea de date web este utilizată pentru a raza pagini și pentru a obține informații. Aveți în vedere site-urile web din care faceți informații despre extragere. Unele site-uri web dinamice restricționează extragerea datelor web pe site-urile lor. Pentru a răni pagina cu Beautiful Soup and Python 3 este atât de simplu.