Czy kiedykolwiek chciałeś porównać ceny z wielu stron jednocześnie? A może automatycznie zbiór postów od Ciebieulubiony blogwyciąg? To wszystko jest możliwe dzięki web scrapingowi.
Web scraping to ekstrakcja treści i danych ze stron internetowych za pomocą oprogramowania. Na przykład większość serwisów porównujących ceny używa skrobaków internetowych do odczytywania informacji o cenach z różnych sklepów internetowych. Innym przykładem jest Google, który rutynowo przegląda lub „indeksuje” siećindeksować strony internetowe.
Oczywiście to tylko dwie z nichwielePrzypadki użycia do skrobania stron internetowych. W tym artykule zagłębimy się w świat skrobaków internetowych, jak one działają i jak niektóre witryny próbują je blokować. Czytaj dalej, aby dowiedzieć się więcej i rozpocząć skrobanie!
Co to jest skrobanie sieci?
Web scraping to zbiór technik używanych do automatycznego wydobywania danych z Internetu.

Inne terminy dotyczące skrobania stron internetowych to „Skrobanie treści' lub 'data scraping' Jakkolwiek to nazwiesz, web scraping jest niezwykle użytecznym narzędziem do zbierania danych online. Wykorzystanie skrobania sieci obejmuje badania rynku, porównywanie cen, monitorowanie treści i wiele innych.
Ale co dokładnie jest „podrapane” w web scrapingu – i jak to możliwe? Czy to w ogóle jest legalne? Czy strona internetowa chciałaby, aby ktoś przyszedł i węszył w jej danych?
Odpowiedzi zależą od kilku czynników. Zanim jednak zagłębimy się w metody i przypadki użycia, przyjrzyjmy się bliżej, czym jest web scraping i czy jest etyczny.
Co możemy wyskrobać z sieci?
Możliwe jest zeskrobywanie wszystkich typów danych internetowych. Z wyszukiwarek przezKanały RSSdo informacji rządowych – większość witryn internetowych udostępnia swoje dane skrobakom, robotom indeksującym i innym formom automatycznego gromadzenia danych.
Oto kilka typowych przykładów.

Ale to nie znaczy, że te danezawszeSą dostępne. W zależności od witryny być może będziesz musiał użyć kilku narzędzi i sztuczek, aby uzyskać dokładnie to, czego potrzebujesz - zakładając, że dane są w ogóle dostępne. Na przykład wiele skrobaków internetowych nie może wyodrębnić żadnych znaczących danychzawartość wizualnawyciąg.
W najprostszych przypadkach skrobanie sieci można wykonać za pomocąAPI(Interfejs aplikacji do programowania)Strona internetowa.Gdy witryna udostępnia swój interfejs API, twórcy stron internetowych mogą go użyć do automatycznego wyodrębnienia danych i innych przydatnych informacji w wygodnym formacie. To prawie tak, jakby chciałHost sieciowyudostępnić Ci własny „potok” do swoich danych. To się nazywa gościnność!
Oczywiście nie zawsze tak jest – i wiele stron internetowych, które chcesz zeskrobać, maNIEAPI, którego możesz użyć. A nawet strony internetowe, które mają interfejs API,nie zawsze udostępniają dane we właściwym formacie.
Dlatego skrobanie sieci jest konieczne tylko wtedy, gdy żądane dane sieciowe nie są w wymaganej formie. Niezależnie od tego, czy oznacza to, że żądane formaty nie są dostępne, czy witryna po prostu nie zapewnia wszystkich danych, skrobanie sieci może zapewnić Ci to, czego chcesz.
Chociaż wszystko to jest dobre i dobre, rodzi to również ważne pytanie: czy legalne jest zeskrobywanie niektórych danych internetowych, jeśli są one ograniczone? Jak zobaczymy za chwilę, może to być trochę szara strefa.
Czy Web Scraping jest legalny?
Dla niektórych osób skrobanie sieci może przypominać kradzież. Kim jesteś, żeby tak po prostu „kraść” czyjeś dane?
Na szczęście skrobanie sieci nie jest z natury nielegalne. Gdy witryna internetowa publikuje dane, zwykle są one dostępne publicznie i dlatego można je swobodnie skanować.
Na przykład, ponieważ Amazon udostępnia publicznie ceny produktów, zbieranie danych o cenach jest całkowicie legalne. Wiele popularnych aplikacji zakupowych i rozszerzeń przeglądarki wykorzystuje właśnie w tym celu funkcję web scrapingu, dzięki czemu użytkownicy wiedzą, że otrzymują odpowiednią cenę.
Jednak nie wszystkie dane internetowe są przeznaczone dla ogółu społeczeństwa, a to oznacza, że nie wszystkie dane internetowe można wykorzystać zgodnie z prawem. Jeśli chodzi o dane osobowe i własność intelektualną, przeglądanie sieci może gwałtownie wzrosnąćzłośliwySkrobanie sieci spowoduje kary, takie jak jednaPowiadomienie DMCAmoże prowadzić.
Co to jest złośliwe web scraping?
Złośliwe przeglądanie stron internetowych to czynność polegająca na pobieraniu danych, których wydawca nie zamierzał ani nie autoryzował do ujawnienia. Chociaż dane te są zwykle danymi osobowymi lub własnością intelektualną, może wystąpić złośliwe przeglądanie sieciwszystkozastosowanie, które nie jest przeznaczone dla publiczności.
Jak można sobie wyobrazić, w tej definicji istnieje szara strefa. Chociaż wiele rodzajów danych osobowych jest chronionych przez przepisy, takie jak npOgólne rozporządzenie o ochronie danych(RODO) iKalifornijska ustawa o ochronie prywatności konsumentów(CCPA) są chronione, inne nie. Ale to nie znaczy, że nie ma sytuacji, w których skrobanie nie jest legalne.

Załóżmy na przykład, że dostawca usług hostingowych „przypadkowo” udostępnia publicznie swoje dane użytkownika. Może to obejmować pełną listę nazwisk, adresów e-mail i innych informacjiWłaściwiesą publiczne, ale mogą nie być przeznaczone do udostępniania.
Nawet jeśli toz technicznego punktu widzeniaGdyby wykorzystanie tych danych było legalne, prawdopodobnie nie jest to najlepszy pomysł. To, że dane są publiczne, niekoniecznie oznacza, że dostawca usług hostingowych zgodził się na ich pobieranie, nawet jeśli upublicznił je z powodu braku ostrożności.
Ta „szara strefa” nadała web scrapingowi nieco ambiwalentną reputację. Chociaż web scraping jest zdecydowanie legalny, można go łatwo wykorzystać do złośliwych lub nieetycznych celów. W rezultacie wielu hostów internetowych nie lubi, gdy ich dane są usuwane, niezależnie od tego, czy jest to zgodne z prawem.
Innym rodzajem złośliwego skrobania sieci jest „nadmierne skrobanie”, w którym skrobaki wysyłają zbyt wiele żądań w danym okresie czasu. Zbyt wiele żądań może stanowić ogromne obciążenie dla hostów internetowych, które ich używajązasoby serwerawolałby używać dla prawdziwych ludzi niż do skrobania botów.
Ogólnie rzecz biorąc, web scrapingu należy używać oszczędnie i tylko wtedy, gdy masz absolutną pewność, że dane są przeznaczone dla ogółu społeczeństwa. Pamiętaj, że to, że dane są publicznie dostępne, nie oznacza, że ich pobieranie jest legalne lub etyczne.
Do czego służy web scraping?
W najlepszym przypadku skrobanie sieci służy wielu przydatnym celom w wielu branżach. W 2021 r. prawie połowa web scrapingu będzie wspieraćStrategie handlu elektronicznegorozmieszczony.

Skrobanie sieci stało się podstawą wielu procesów opartych na danych, od śledzenia marek, przez aktualne porównania cen, po prowadzenie bardziej wartościowychbadania rynku. Oto niektóre z najczęstszych metod.
badania rynku
Co robią Twoi klienci? A co z twoimi leadami? Jak ceny konkurencji wypadają w porównaniu z twoimi? Czy masz informacje, aby odnieść sukcesMarketing przychodzący-LubContent-Marketing-Kampaniastworzyć?
To tylko niektóre z pytań, które stanowią podstawę badań rynkowych – i można na nie odpowiedzieć za pomocą web scrapingu. Ponieważ wiele z tych danych jest publicznie dostępnych, web scraping stał się nieocenionym narzędziem dla zespołów marketingowych, które chcą mieć oko na swój rynek bez konieczności przeprowadzania czasochłonnych ręcznych badań.
automatyzacja biznesu
Wiele korzyści płynących ze skrobania sieci w badaniach rynku odnosi się również do automatyzacji biznesu.
Z wielomaZadania automatyzacji biznesuktóre wymagają gromadzenia i przetwarzania dużych ilości danych, przeglądanie stron internetowych może być nieocenione — zwłaszcza, gdy w przeciwnym razie byłoby bardzo uciążliwe.
Załóżmy na przykład, że musisz zebrać dane z dziesięciu różnych witryn internetowych. Nawet jeśli zbierasz ten sam typ danych od wszystkich, każda witryna może wymagać innej metody ekstrakcji. Zamiast ręcznie przechodzić przez różne procesy wewnętrzne w każdej witrynie, możesz użyć skrobaka do stron internetowych, aby zrobić to automatycznie.
generowanie leadów
Jakby badania rynku i automatyzacja biznesowa nie wystarczały, możesz także użyć web scrapingu, aby przy niewielkim wysiłku stworzyć wartościowe listy potencjalnych klientów.
Chociaż musisz dokładnie określić swoje cele, skrobanie sieci może zebrać wystarczającą ilość danych użytkownikatworzyć ustrukturyzowane listy leadów. Wyniki mogą się oczywiście różnić, ale jest to wygodniejsze (i bardziej obiecujące) niż tworzenie własnych list potencjalnych klientów.
śledzenie cen
Wydobywanie cen – tzwSkrobanie cen –jest jednym z najczęstszych zastosowań web scrapingu.
Oto przykład z popularnej aplikacji do śledzenia cen Amazonwielbłądwielbłąbwielbłąd. Aplikacja regularnie zbiera ceny produktów, a następnie porównuje je na wykresie w czasie.

Ceny mogą się gwałtownie zmieniać, nawet codziennie (zobacz nagły spadek cen około 9 maja!). Dzięki dostępowi do historycznych trendów cenowych użytkownicy mogą sprawdzić, czy cena, którą płacą, jest idealna. W tym przykładzie użytkownik może czekać tydzień, mając nadzieję na zaoszczędzenie 10 USD.
Pomimo swojej użyteczności, skrobanie cen nie jest pozbawione kontrowersji. Ponieważ wiele osób chce aktualizować ceny w czasie rzeczywistym, niektóre aplikacje do monitorowania cen szybko stają się złośliwe, przeciążając niektóre witryny żądaniami serwera.
Dlatego wiele witryn e-commerce zaczęło podejmować dodatkowe środki w celu całkowitego zablokowania skrobaków internetowych, co omówimy w następnej sekcji.
wiadomości i treści
Nie ma nic cenniejszego niż bycie zawsze na bieżąco. Czy chodzi omonitorować reputację firmylub podążać za trendami w branży – web scraping jest cennym narzędziem do bycia na bieżąco.
Chociaż niektóre serwisy informacyjne i blogi oferują już kanały RSS i inne proste interfejsy, nie zawsze są one normą — ani nie są tak powszechne jak kiedyś. Znalezienie dokładnie potrzebnych wiadomości i treści często wymaga jakiejś formy przeszukiwania sieci.
Monitorowanie marki
Jeśli już skanujesz wiadomości, dlaczego nie sprawdzić też swojej marki? W przypadku dobrze nagłośnionych marek przeglądanie stron internetowych jest nieocenionym narzędziem pozwalającym być na bieżąco bez konieczności przeszukiwania niezliczonych artykułów i serwisów z wiadomościami.
Web scraping jest również przydatny do sprawdzania ceny minimalnej produktu lub usługi danej marki. Chociaż z technicznego punktu widzenia jest to forma skrobania cen, jest to ważny wgląd, który może pomóc markom określić, czy ich ceny są zgodne z oczekiwaniami klientów.
Nieruchomość
Jeśli kiedykolwiek szukałeś mieszkania lub kupowałeś dom, wiesz, ile jest do załatwienia. Z tysiącami ofert na różneportale nieruchomościmoże być trudneDokładnieaby znaleźć to, czego szukasz.

Wiele witryn korzysta z funkcji Web Scraping w celu konsolidacji ofert nieruchomości w jedną bazę danych w celu ułatwienia wyszukiwania. Popularnymi przykładami są Zillow i Trulia, ale jest wiele innych, które podążają za podobnym modelem.
Agregowanie ofert nie jest jednak jedyną aplikacją do zbierania danych z sieci nieruchomości. Na przykład agenci nieruchomości mogą korzystać z aplikacji typu scraping, aby śledzić średnie ceny wynajmu i sprzedaży, rodzaje sprzedawanych nieruchomości i inne ważne trendy.
(cta)
Jak działa web scraping?
Skrobanie sieci może wydawać się skomplikowane, ale w rzeczywistości jest całkiem proste.
Chociaż istnieją różne metody i narzędzia, wystarczy znaleźć sposób na (1) automatyczne skanowanie docelowych witryn internetowych i (2) wyodrębnienie danych, gdy już tam będziesz. Zwykle te kroki pochodzą zSkrobakICrawlernprzeprowadzone.
zgarniacze i gąsienice
Zasadniczo skrobanie sieci działa podobnie jak koń i pług.

Gdy koń prowadzi pług, pług obraca się i rozdrabnia glebę, aby zrobić miejsce na nowe nasiona, jednocześnie usuwając niechciane chwasty i resztki pożniwne w glebie.
Oprócz konia, skrobanie śladów nie różni się zbytnio. Tutaj gąsienica wciela się w rolę konia i prowadzi skrobaczkę – nasz pług, że tak powiem – przez nasze cyfrowe pola.
Oto, co robią ci dwaj.
- Gąsienica(czasem też jakPająko nazwie) to programy, które przeszukują Internet w poszukiwaniu treści i indeksują ją. Chociaż roboty indeksujące kierują skrobakami sieciowymi, nie są używane wyłącznie do tego celu.Wyszukiwarkijak na przykład Google, używają robotów indeksujących do aktualizowania indeksu i rankingu stron internetowych. Roboty indeksujące są zwykle dostępne jako gotowe narzędzia, w których można określić konkretną witrynę internetową lub wyszukiwane hasło.
- Skrobakwykonywać brudną robotę polegającą na szybkim wydobywaniu odpowiednich informacji ze stron internetowych. Ponieważ strony internetowe wHTMLsą ustrukturyzowane, skrobaki używają wyrażeń regularnych (regex), XPath, selektorów CSS i innych lokalizatorów, aby szybko znaleźć i wyodrębnić określoną zawartość. Na przykład możesz nadać swojemu web scraperowi wyrażenie regularne zawierające nazwę marki lub słowo kluczowe.
Jeśli brzmi to trochę przytłaczająco, nie martw się. Większość narzędzi do skrobania stron internetowych ma wbudowane roboty indeksujące i skrobaki, które ułatwiają wykonywanie nawet najbardziej skomplikowanych zadań.
Podstawowy proces skrobania sieci
Zasadniczo skrobanie sieci składa się z kilku prostych kroków:
- daćadresy URLstron i stron, które chcesz zeskrobać
- Wykonaj żądanie HTML do adresów URL (tj. „Odwiedź” strony)
- Użyj lokalizatorów, takich jak wyrażenia regularne, aby wyodrębnić żądane informacje z kodu HTML
- Przechowuj dane w ustrukturyzowanym formacie (np. CSV lub JSON)
Jak zobaczymy w następnej sekcji, do automatycznego wykonania tych kroków można użyć różnych narzędzi do skrobania stron internetowych.
Jednak nie zawsze jest to takie proste – zwłaszcza gdy robisz web scraping na większą skalę. Jednym z największych wyzwań związanych ze skrobaniem stron internetowych jest aktualizowanie skrobaka, gdy strony internetowe zmieniają swój układ lub podejmują środki zapobiegające skrobaniu (nie wszystko możezimozielonyByć). Chociaż nie jest to zbyt trudne, jeśli skanujesz tylko kilka stron internetowych naraz, może szybko stać się problemem, gdy skanujesz więcej.
Aby zminimalizować dodatkową pracę, ważne jest, aby zrozumieć, w jaki sposób strony internetowe próbują blokować skrobaki — dowiemy się tego w następnej sekcji.
Narzędzia do skrobania stron internetowych
Wiele funkcji skrobania stron internetowych jest łatwo dostępnych w postaci narzędzi do skrobania stron internetowych. Chociaż istnieje wiele narzędzi, różnią się one znacznie pod względem jakości, ceny i (niestety) etyki.

Dobry web scraper z pewnością będzie w stanie niezawodnie wyodrębnić potrzebne dane bez napotykania zbyt wielu środków zapobiegających skrobaniu. Oto kilka kluczowych funkcji, na które należy zwrócić uwagę.
- Precyzyjne lokalizatory:Skrobaki internetowe używają lokalizatorów, takich jak wyrażenia regularne i selektory CSS, do wyodrębniania określonych danych. Narzędzie, które wybierzesz, powinno dać ci kilka opcji, aby określić, czego chcesz szukać.
- Jakość danych:Większość danych internetowych jest nieustrukturyzowana — nawet jeśli są one wyraźnie widoczne dla ludzkiego oka. Praca z danymi nieustrukturyzowanymi jest nie tylko myląca, ale rzadko daje dobre wyniki. Uważaj na narzędzia do skrobania, które czyszczą i sortują surowe dane przed ich przesłaniem.
- Dostarczanie danych:W zależności od istniejących narzędzi lub przepływu pracy prawdopodobnie potrzebujesz zeskrobanych danych w określonym formacie, takim jak JSON, XML lub CSV. Zamiast samodzielnie konwertować surowe dane, powinieneś poszukać narzędzi, które dostarczają dane w potrzebnych formatach.
- Procedura zapobiegająca zdrapywaniu:Skrobanie sieci jest tak skuteczne, jak jego zdolność do omijania blokad. Może być konieczne użycie dodatkowych narzędzi, takich jak serwery proxy i sieci VPNodblokuj strony internetowe, ale wiele narzędzi do skrobania stron internetowych radzi sobie z tym, wprowadzając niewielkie zmiany w swoich robotach indeksujących.
- Przejrzyste ceny:Podczas gdy niektóre narzędzia do skrobania stron internetowych są bezpłatne, bardziej niezawodne opcje mają swoją cenę. Zwróć szczególną uwagę na ceny, zwłaszcza jeśli planujesz zeskrobać wiele stron internetowych.
- Obsługa klienta:Chociaż korzystanie z gotowego narzędzia jest niezwykle przydatne, nie zawsze będziesz w stanie samodzielnie rozwiązać problemy. Upewnij się więc, że Twój dostawca oferuje również niezawodną obsługę klienta i zasoby dotyczące rozwiązywania problemów.
Popularne narzędzia do skrobania stron internetowych toośmiornica,Importuj.ioIParsehub.
Ochrona przed skrobaniem sieci
Odwróćmy nieco sytuację: Załóżmyjesteśhosta internetowego, ale nie chcesz, aby inne osoby używały tych wszystkich sprytnych metod do zeskrobywania danych. Co możesz zrobić, aby się chronić?
Oprócz podstawowychwtyczki bezpieczeństwaIstnieje kilka skutecznych sposobów blokowania skrobaków i robotów indeksujących.

- Blokowanie adresów IP:Wielu hostów internetowych śledzi adresy IP swoich gości. Jeśli gospodarz odkryje, że dany gość generuje wiele żądań serwera (takich jak niektóre skrobaki sieciowe lub boty), może całkowicie zablokować adres IP. Jednak skrobaki mogą ominąć te blokady, zmieniając swój adres IP za pośrednictwem serwera proxy lub sieci VPN.
- Konfigurowanie pliku robots.txt:zrobots.txt-Dateihost sieciowy może powiedzieć skrobakom, robotom indeksującym i innym botom, do czego mogą, a czego nie mają dostępu. Niektóre witryny używają pliku robots.txt do ochrony swojej prywatnościPowiedz wyszukiwarkom, że nie są indeksowanePowinien być. Większość wyszukiwarek szanuje te pliki, ale wiele złośliwych skrobaków internetowych tego nie robi.
- Filtruj żądania:Za każdym razem, gdy ktoś odwiedza stronę internetową, „żąda” strony HTML z serwera WWW. Żądania te są często widoczne dla hostów internetowych, które używają pewnych czynników identyfikujących, takich jak adresy IP iagenty użytkownikajak widzą przeglądarki internetowe. Mówiliśmy już o blokowaniu adresów IP, ale hosty internetowe mogą również filtrować według agenta użytkownika.
Na przykład, jeśli dostawca usług hostingowych zauważy, że jeden i ten sam użytkownik wysyła wiele żądań z dawno nieaktualną wersją przeglądarki Mozilla Firefox, może po prostu zablokować tę wersję, a wraz z nią bota. Te funkcje blokowania są w większościZarządzane plany hostingowezawierać.
- Pokaż captchę:Czy kiedykolwiek musiałeś wpisać dziwny ciąg tekstu lub kliknąć co najmniej sześć żaglówek, zanim uzyskałeś dostęp do strony? Wtedy jesteś naCaptcha“ napotkał lubCwypełnićAzautomatyzowanyPpublicznyTurny test na mówienieCkomputery iHludzieAczęść. Chociaż mogą być proste, są niezwykle skuteczne w filtrowaniu skrobaków internetowych i innych botów.
- Miodowniki:„Honeypot” to rodzaj pułapki mającej na celu przyciągnięcie i zidentyfikowanie niechcianych gości. W przypadku skrobaków sieciowych host sieciowy może osadzić niewidoczne linki na swojej stronie internetowej. Nawet bez zauważenia przez ludzi, boty automatycznie odwiedzają te linki podczas przewijania strony, umożliwiając hostom internetowym gromadzenie (i blokowanie) ich adresów IP lub agentów użytkownika.
Teraz ponownie odwróćmy sytuację. Co może zrobić skrobaczka, aby pokonać te mechanizmy obronne?
Chociaż niektóre środki zapobiegające skrobaniu są trudne do obejścia, istnieje kilka metod, które często działają. Obejmuje to zmianę cech identyfikacyjnych skrobaka w jakiś sposób.

- Użyj proxy lub VPN:Ponieważ wielu hostów internetowych blokuje skrobaki sieciowe na podstawie ich adresu IP, często konieczne jest użycie wielu adresów IP w celu zagwarantowania dostępu. pełnomocników iWirtualny,prywatnysieci(VPN) są idealne do tego zadania, chociaż jest ich kilkaważne różniceeksponować.
- Odwiedzaj regularnie swoje miejsca docelowe:Większość (jeśli w ogóle) skrobaków internetowych poinformuje Cię, kiedy zostaną zablokowane. Dlatego ważne jest, aby regularnie sprawdzać, skąd pobierasz dane, aby zobaczyć, czy nie zostałeś zablokowany lub czy zmieniło się formatowanie witryny. Pamiętaj, że jedno i drugie z pewnością nastąpi w pewnym momencie.
Oczywiście żaden z tych środków nie jest konieczny, jeśli używasz web scrapingu w sposób odpowiedzialny. Jeśli zdecydujesz się korzystać ze skrobania stron internetowych, pamiętaj, aby używać go oszczędnie i szanować swoich hostów internetowych!
Streszczenie
Web scraping jest potężnym narzędziem, ale stanowi również poważne zagrożenie dla wielu hostów internetowych.Niezależnie od tego, po której stronie serwera się znajdujesz, każdy jest zainteresowany odpowiedzialnym i naturalnym wykorzystaniem web scrapingu dla dobra.
Jako dostawca usług hostingowych, jeśli chcesz kontrolować skrobaki sieciowe, trafiłeś naZarządzane plany hostingowez Kinsta pod właściwy adres. Możesz ograniczyć boty i chronić cenne dane i zasoby za pomocą licznych narzędzi kontroli dostępu.
Jeśli chcesz wiedzieć więcejumów się na bezpłatne demoLubskontaktuj się z ekspertem ds. hostingu już dziśprzez Kinstę.