Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (2023)

Wydobywanie danych ze strony internetowej może być przydatną umiejętnością w szerokim zakresie zastosowań, takich jak eksploracja danych, analiza danych i automatyzacja powtarzalnych zadań.

Dzięki ogromnej ilości danych dostępnych w Internecie, możliwość wyodrębnienia i przeanalizowania tych danych może dostarczyć cennych informacji i pomóc w podejmowaniu świadomych decyzji.

Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (1)

Firmy finansowe mogą podejmować decyzje o zakupie lub sprzedaży rzeczy we właściwym czasie. Branża turystyczna może śledzić ceny na swoim niszowym rynku, aby uzyskać przewagę konkurencyjną.

Restauracje mogą usuwać recenzje i dokonywać niezbędnych zwolnień, jeśli niektóre rzeczy nie są odpowiednie. Tak więc istnieje nieskończona liczba zastosowań ekstrakcji danych.

W tym artykule zagłębimy się w różne metody wydobywania danych ze strony internetowej i przedstawimy przewodnik krok po kroku, jak to zrobić.

Spis treści

(Video) Web Scraping Tutorial | Data Scraping from Websites to Excel | Web Scraper Chorme Extension

Co to jest skrobanie sieci? Dlaczego jest używany do ekstrakcji danych?

Web scraping, znany również jako zbieranie sieci lub ekstrakcja danych z sieci, to proces wydobywania danych ze strony internetowej i przekształcania ich w ustrukturyzowany format, który można łatwo analizować i wykorzystywać. Skrobaków sieciowych można używać do wydobywania szerokiego zakresu danych, w tym informacji o produktach, cenach, recenzjach i nie tylko.

Skanowanie stron internetowych jest często wykorzystywane przez firmy do zbierania danych do badań rynku, porównywania cen i innych celów. Może być również używany przez osoby fizyczne do różnych celów, takich jak wydobywanie danych do osobistych projektów lub automatyzacja powtarzalnych zadań.

Metody wydobywania danych ze strony internetowej

Istnieje kilka metod wydobywania danych ze strony internetowej, a najlepsza metoda będzie zależała od konkretnych potrzeb i struktury witryny, z którą pracujesz. Oto kilka typowych metod pobierania danych ze strony internetowej:

Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (2)
  1. Ręczne kopiowanie i wklejanie:Jedną z najprostszych metod wyodrębniania danych ze strony internetowej jest po prostu skopiowanie i wklejenie danych do arkusza kalkulacyjnego lub innego dokumentu. Ta metoda jest odpowiednia dla małych ilości danych i może być stosowana, gdy dane są łatwo dostępne na stronie internetowej.
  2. Rozszerzenia przeglądarki internetowej: Istnieje kilka rozszerzeń przeglądarki internetowej, które mogą pomóc w wyodrębnieniu danych ze strony internetowej. Rozszerzenia te można zainstalować w przeglądarce internetowej i umożliwiają one wybieranie i wyodrębnianie określonych punktów danych ze strony internetowej. Niektóre popularne opcje to Data Miner i Web Scraper.
  3. Narzędzia do skrobania sieci: Dostępnych jest kilka narzędzi, które mogą pomóc w wyodrębnieniu danych ze strony internetowej. Narzędzia te mogą być używane do poruszania się po witrynie i wyodrębniania określonych punktów danych w oparciu o Twoje wymagania. Niektóre popularne opcje to ParseHub, Import.io itp.
  4. Oficjalne interfejsy API danych: Wiele witryn internetowych oferuje interfejsy API (interfejsy programowania aplikacji), które umożliwiają dostęp do ich danych w ustrukturyzowanym formacie. Używaćinterfejs API skrobania siecimoże być wygodnym sposobem na wyodrębnienie danych ze strony internetowej, ponieważ dane są już uporządkowane i gotowe do użycia. Jednak nie wszystkie strony internetowe oferują interfejsy API, a te, które to oferują, mogą mieć ograniczenia dotyczące sposobu wykorzystania danych.
  5. Usługi skrobania sieci: Jeśli nie chcesz obsługiwać serwerów proxy i przeglądarek bezgłowych, możesz skorzystać z usługi aweb scraping, aby wyodrębnić dane ze strony internetowej. Usługi te zajmują się technicznymi aspektami skrobania stron internetowych i mogą bezproblemowo dostarczać dane.
  6. Tworzenie własnego skrobaka: Możesz nawet zakodować swój własny skrobak. Następnie możesz użyć bibliotek takich jak BS4, aby wyodrębnić niezbędne punkty danych z surowych danych. Ale ten proces ma ograniczenie i jest nim blokowanie adresów IP. Jeśli chcesz użyć tego procesu do ciężkiego skrobania, Twój adres IP zostanie natychmiast zablokowany przez hosta. Ale w przypadku małych projektów proces ten jest tańszy i łatwiejszy w zarządzaniu.

Wyodrębnijmy dane ze strony internetowej za pomocą Pythona

Teraz, gdy już rozumiesz różne metody wydobywania danych ze strony internetowej, przyjrzyjmy się ogólnym krokom, które możesz wykonać, aby wyodrębnić dane ze strony internetowej.

Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (3)
  1. Zidentyfikuj dane, które chcesz wyodrębnić: Przed rozpoczęciem wyodrębniania danych ważne jest, aby mieć jasne pojęcie, jakie dane chcesz wyodrębnić i dlaczego. Pomoże to określić najlepsze podejście do wyodrębniania danych.
  2. Sprawdź strukturę serwisu: Aby wyodrębnić dane ze strony internetowej, musisz zrozumieć, w jaki sposób witryna jest zbudowana i jak zorganizowane są dane. Możesz użyć rozszerzeń, npSelectorgadgetokreślić lokalizację dowolnego elementu.
  3. Scenariusz: Następnie musisz przygotować skrypt, dzięki któremu zautomatyzujesz ten proces. Skrypt jest zasadniczo podzielony na dwie części. Najpierw musisz wysłać żądanie HTTP GET do docelowej witryny, aw drugiej części musisz wyodrębnić dane z surowego HTML za pomocą niektórych bibliotek analizujących, takich jakBS4Icheerio.

Zrozummy ekstrakcję danych na przykładzie. UżyjemyPytondla tego przykładu. Zakładam, że masz już zainstalowany Python na swoim komputerze.

Powodem wyboru Pythona jest to, że jest to popularny język programowania, który ma dużą i aktywną społeczność programistów i dobrze nadaje się do skrobania stron internetowych dzięki bibliotekom do uzyskiwania dostępu i analizowania danych HTML i XML.

W tym przykładzie zamierzamy zainstalować dwie biblioteki Pythona.

  1. Upraszaniepomoże nam nawiązać połączenie HTTP z Bing.
  2. PięknaZupapomoże nam stworzyć drzewo HTML do płynnej ekstrakcji danych.

Na początek utworzymy folder, w którym będziemy przechowywać nasz skrypt. Nazwałem folder „wyodrębnianie danych”.

(Video) How to Import Data from Web to Excel

>> mkdir dataextraction>> żądania instalacji pip >> instalacja pip beautifulsoup4

Zeskrobamy toStrona internetowa. Wyciągniemy z niego następujące dane:

  • Tytuł książki
  • Cena
  • Ocena
Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (4)

Zaimportujmy biblioteki, które zainstalowaliśmy.

importuj żądania z bs4 importuj BeautifulSoup

Następnym krokiem byłoby pobranie danych HTML z docelowej strony internetowej. Możesz użyćupraszaniebiblioteka, aby wysłać żądanie HTTP do strony internetowej i pobrać odpowiedź.

l=[]o={}target_url="http://books.toscrape.com/"resp = request.get(target_url)

Teraz przeanalizujmy kod HTML za pomocą Beautiful Soup. Możesz użyćPięknaZupakonstruktora, aby utworzyć obiekt Beautiful Soup z kodu HTML, a następnie użyć tego obiektu do nawigacji i wyodrębnienia żądanych danych.

zupa = PięknaZupa(odp.tekst,'html.parser')

Zanim przejdziemy dalej, znajdźmy lokalizację DOM każdego elementu, sprawdzając je.

Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (5)

znacznik artykułuzawiera wszystkie dane księgi. Tak więc lepiej będzie dla nas wyodrębnić wszystkie te tagi z listy. Kiedy już to mamy, możemy wyodrębnić wszystkie niezbędne szczegóły dla dowolnej konkretnej książki.

Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (6)

Ocenajest przechowywany pod atrybutem class ofdzień str. Użyjemy.Dostawać()sposób wyodrębnienia tych danych.

o["ocena"]=wszystkieKsiążki[0].find("p").get("klasa")[1]
Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (7)

Nazwa książki jest przechowywana w plikuatrybut tytułupodznacznik h3.

(Video) Elektroniczna rewolucja. Jak dokonywać zmian w KRS online?

o["nazwa"]=allBooks[0].find("h3").find("a").get("tytuł")
Jak wyodrębnić dane z dowolnej witryny (samouczek krok po kroku) (8)

Podobnie możesz znaleźć dane cenowe przechowywane w plikup dzieńz klasycena_kolor.

o["cena"]=wszystkieKsiążki[0].find("p",{"class":"cena_kolor"}).tekst

Kompletny kod

Korzystając z podobnej techniki, możesz znaleźć dane ze wszystkich książek. To oczywiste, że będziesz musiał biecDopętla do tego. Ale obecny kod będzie wyglądał tak.

import request from bs4 import BeautifulSoupl=[]o={}target_url="http://books.toscrape.com/"resp = request.get(target_url)soup = BeautifulSoup(resp.text,'html.parser')allBooks = soup.find_all("article",{"class":"product_pod"})o["ocena"]=allBooks[0].find("p").get("class")[1 ]o["nazwa"]=allBooks[0].find("h3").find("a").get("tytuł")o["cena"]=allBooks[0].find("p",{"class":"cena_kolor"}).textl.append(o)print(l)

Dane wyjściowe będą wyglądać tak.

[{'ocena': 'Trzy', 'nazwa': 'Światło na strychu', 'cena': '51,77 £'}]

W jaki sposób Scrapingdog może pomóc w wydobyciu danych?

Zespół Scrapingdog ma ponad 7 lat doświadczenia, jeśli chodzi o skrobanie sieci. Web Scraping API firmy Scrapingdog to najlepszy skrobak na rynku do zeskrobywania dowolnej witryny za pomocą jednego żądania.

Korzystając z interfejsu API, możesz stworzyć bezproblemowy, niezniszczalny potok danych, który może dostarczać dane z dowolnej witryny. Używamy puli proxy obejmującej ponad 10 milionów adresów IP, która zmienia się na każde żądanie, co pomaga w zapobieganiu blokowaniu adresów IP.

Zapomnij o zablokowaniu podczas przeglądania sieci

Wypróbuj ScrapingdogaInterfejs API skrobania sieciwyodrębnić dane z dowolnej strony internetowej

(Video) CO ZROBIĆ PO ZŁOŻENIU KOMPUTERA? | Instalacja Windows, sterowniki, BIOS 🧐

Wypróbuj Scrapingdoga za darmoPrzeczytaj dokumentację

Czy ekstrakcja danych jest w ogóle legalna?

Ogólnie rzecz biorąc, pobieranie danych ze strony internetowej jest legalne, o ile odbywa się to w uzasadnionych celach. Mogą jednak istnieć ograniczenia prawne dotyczące sposobu wykorzystywania danych i sposobu ich pozyskiwania.

Jedną z ważnych kwestii prawnych są warunki korzystania z witryny internetowej. Wiele witryn internetowych ma warunki świadczenia usług, które zabraniają lub ograniczają korzystanie ze skrobania stron internetowych lub innych metod ekstrakcji danych. Ważne jest, aby zapoznać się z warunkami świadczenia usług przed wyodrębnieniem danych ze strony internetowej, ponieważ naruszenie warunków świadczenia usług może zostać uznane za naruszenie umowy lub naruszenie praw własności intelektualnej.

Kolejną kwestią prawną jest wykorzystanie danych. Nawet jeśli masz pozwolenie na pobieranie danych ze strony internetowej, możesz nie mieć możliwości wykorzystania tych danych do określonych celów. Na przykład możesz nie mieć możliwości wykorzystania danych do celów komercyjnych bez zgody właściciela witryny. Dodatkowo możesz zostać poproszony o przypisanie danych do serwisu lub właściciela danych.

Wreszcie, mogą istnieć ograniczenia prawne dotyczące sposobu pozyskiwania danych. Na przykład nielegalne może być używanie pewnych metod (takich jak hakowanie) w celu uzyskania dostępu do danych, które nie są publicznie dostępne.

Ogólnie rzecz biorąc, ważne jest, aby dokładnie rozważyć konsekwencje prawne pobierania danych ze stron internetowych i w razie potrzeby uzyskać pozwolenie lub licencje.

(Video) Excel: Jak przyporządkować dane? WYSZUKAJ.PIONOWO

Dodatkowe zasoby

Oto kilka dodatkowych zasobów, które mogą okazać się pomocne podczas Twojej podróży po skrobaniu sieci:

  • Web Scraping E-mail z dowolnej witryny przy użyciu Pythona
  • Wyodrębnianie danych dla dowolnej firmy używającej Pythona z ZoomInfo

FAQs

Jak skopiować dane ze strony internetowej do Excela? ›

W arkuszu importowania danych z sieci Web Skopiuj adres URL, który jest stroną witryny Wikipedia dla FIFA światowego. Wybierz pozycję dane ,> uzyskać & przekształcanie > z sieci Web. Naciśnij klawisze CTRL + V, aby wkleić adres URL w polu tekstowym, a następnie wybierz przycisk OK.

Czy do arkusza kalkulacyjnego możemy zaimportować wartości z internetu? ›

W momencie, gdy nasza strona jest już wgrana w Excelowej przeglądarce możemy od razu kliknąć przycisk Importuj w prawym dolnym rogu ekranu, co zaimportuje zawartość strony do arkusza Excel. Po kliknięciu przycisku importuj zostaniesz zapytany też, w które miejsce w skoroszycie chcesz pobrać zawartość strony.

Jak pobrać dane z innego pliku Excel? ›

Przełącz się do skoroszytu docelowego, a następnie kliknij arkusz, w którym chcesz umieścić połączone dane. Zaznacz komórkę, w której chcesz umieścić połączone dane, a następnie przejdź do strony głównej> Schowka i> pozycję Wklej> Wklej łącze. Excel zostaną zwrócone dane skopiowane ze skoroszytu źródłowego.

Czy MS Excel może pobierać dane zewnętrzne? ›

Aby otworzyć zapisane zapytanie z Excel: Na karcie Dane w grupie Pobierz dane zewnętrzne kliknij pozycję Z innychźródeł, a następnie kliknij pozycję Z dodatku Microsoft Query. Zostanie wyświetlone okno dialogowe Wybieranie źródła danych.

Co to jest import danych? ›

Import/Eksport to mechanizm umożliwiający szybkie zapisywanie i wczytywanie danych z pliku. Każdy wyeksportowany plik możesz zmodyfikować (np. w programie Microsoft Excel), a następnie zaimportować z powrotem do sklepu.

Jak połączyć Excel z Google Maps? ›

  1. Wchodzimy na stronę Google Mapy.
  2. Wpisujemy początek i cel trasy.
  3. Klikamy POKAŻ TRASĘ
  4. Klikamy link (obok drukarki)
  5. Kopiujemy treść kodu HTML, którego. przeznaczeniem jest możliwość ...
  6. Kopiujemy ten kod do notatnika i. zapisujemy plik jako: Test.html.
  7. Do arkusza wstawiamy kontrolkę WebBrowser.

Jak wkleić dane do Excela? ›

Domyślnie podczas kopiowania (lub wycinania) i wklejania w programie Excel wszystkie komórki lub zakres źródłowy — dane, formatowanie, formuły, sprawdzanie poprawności, komentarze — są wklejone do komórek docelowych. Dzieje się tak po naciśnięciu klawiszy CTRL+V w celu wklejenia.

Jak skopiować tabelę ze strony internetowej? ›

Aby skopiować tabelę, naciśnij klawisze CTRL+C. Aby wyciąć tabelę, naciśnij klawisze CTRL+X.

Jak kopiować i wklejać w Excelu? ›

Kopiowanie komórek przy użyciu funkcji Kopiowanie i wklejanie
  1. Zaznacz komórkę lub zakres komórek.
  2. Wybierz pozycję Kopiuj lub naciśnij klawisze Ctrl+C.
  3. Wybierz pozycję Wklej lub naciśnij klawisze Ctrl+V.

Jak wkleić listę do Excela? ›

Drugie rozwiązanie to użycie narzędzia Wklej specjalnie. Należy skopiować komórkę Excela z listą rozwijaną, zaznaczyć komórki, do których chcesz przenieść listę, a następnie kliknąć na nich prawym przyciskiem myszy i wybrać Wklej specjalnie (albo użyć skrótu CTRL + ALT + V).

Videos

1. Typescript - kurs podstaw 🔥 Tutorial krok po kroku!
(Jak zacząć programować?)
2. excel-757 - Jak super szybko wstawić dowolną ilość kolejnych dat lub liczb
(PMSOCHO Piotr Majcher)
3. EXCEL - baza danych
(Sebastian Kania)
4. Jak Zrobić Stronę Internetową w Wordpress 2023 | 23 Kroki | Wordpress Tutorial dla Początkujących
(Zróbmy stronę)
5. MSI AFTERBURNER KROK PO KROKU 🚀 | BlackWhite radzi: jak monitorować statystyki i pracę komputera?
(x-kom)
6. EXCEL - funkcja WYSZUKAJ.PIONOWO
(PMSOCHO Piotr Majcher)
Top Articles
Latest Posts
Article information

Author: Dong Thiel

Last Updated: 08/08/2023

Views: 5954

Rating: 4.9 / 5 (59 voted)

Reviews: 82% of readers found this page helpful

Author information

Name: Dong Thiel

Birthday: 2001-07-14

Address: 2865 Kasha Unions, West Corrinne, AK 05708-1071

Phone: +3512198379449

Job: Design Planner

Hobby: Graffiti, Foreign language learning, Gambling, Metalworking, Rowing, Sculling, Sewing

Introduction: My name is Dong Thiel, I am a brainy, happy, tasty, lively, splendid, talented, cooperative person who loves writing and wants to share my knowledge and understanding with you.