De afgelopen maanden stapelden de borden en mededelingen zich steeds sneller op. Google welproberen te dodende 10 blauwe schakels. Twitter welwordt verlatentot robots en blauwe vinkjes. Het isjunkificatie van AmazonEnenshittificatie van TikTok. Ontslagen maken de online media leeg. EENvacatureop zoek naar een ‘AI-editor’ verwacht ‘een output van 200 tot 250 artikelen per week’. ChatGPT wordt gebruikt om te genererenhele spampagina's. Etsy wordt overspoeld met "AI genereerde afval.” Chatbots citeren elkaar in éénverkeerde informatie ouroboros. LinkedIn gebruikt AI omvermoeide gebruikers stimuleren. Snapchat en Instagram hopenrobotzal met je praten als je vrienden dat niet doen. Redditors-stagerblack-outs. Stack Overflow-mods zijn dat welin staking. Het internetarchief vecht tegengegevensschrapers, En "AI verscheurt Wikipedia.” Het oude web is aan het sterven, en het nieuwe web heeft moeite om geboren te worden.
Het web sterft natuurlijk altijd; het is al jaren aan het uitsterven, gedood door apps die verkeer afleiden van websites of algoritmen die een zogenaamd kortere aandachtsspanne belonen. Maar in 2023 is het stervendeopnieuw -en zoals de bovenstaande litanie suggereert, is er een nieuwe katalysator in het spel: AI.
AI overweldigt de schaalbaarheid van het internet
Het probleem is, in zeer brede termen, dit. Jaren geleden was het internet een plek waar individuen dingen maakten. Ze maakten websites, forums en mailinglijsten, en verdienden er geld mee. Toen besloten bedrijven dat ze het beter konden doen. Ze creëerden soepele platforms met veel functies en openden de deuren voor iedereen om mee te doen. Ze zetten dozen voor ons neer, en wij vulden die dozen met tekst en afbeeldingen, en mensen kwamen kijken naar de inhoud van die dozen. De bedrijven jaagden op schaalgrootte, omdat er eenmaal genoeg mensen waren bijeenkomenoveral, is er meestal een manier om er geld aan te verdienen. Maar AI verandert deze aannames.
Gezien het geld en de rekenkracht kunnen AI-systemen – vooral de generatieve modellen die momenteel in zwang zijn – moeiteloos schalen. Ze produceren tekst en beeld in overvloed, en binnenkort ook muziek en video. Hun producten kunnen mogelijk de platforms waarop we vertrouwen voor nieuws, informatie en entertainment overstijgen of zelfs beter presteren. Maar de kwaliteit van deze systemen is vaak slecht en ze zijn gebouwd op een manier die tegenwoordig parasitair is op internet. Deze modellen zijn getraind op datalagen die zijn ontstaan tijdens het laatste internettijdperk en die ze op onvolmaakte wijze opnieuw creëren. Bedrijven halen informatie van het open web en verfijnen deze tot machinaal gegenereerde inhoud die goedkoop te genereren is, maar minder betrouwbaar. Dit product concurreert vervolgens om aandacht met de platforms en mensen die hen voorgingen. Websites en gebruikers anticiperen op deze veranderingen en proberen te beslissen hoe ze zich moeten aanpassen en of ze dat überhaupt kunnen.
De afgelopen maanden hebben discussies en experimenten op enkele van de meest populaire en nuttige bestemmingen op internet – sites als Reddit, Wikipedia, Stack Overflow en Google zelf – de druk aan het licht gebracht die wordt veroorzaakt door de opkomst van AI-systemen.
De moderators van Reddit organiseren black-outs nadat het bedrijf zei dat het de kosten voor toegang tot de API sterk zou verhogen, en bedrijfsleiders zeiden dat de veranderingen (gedeeltelijk) een reactie zijn op het feit dat AI-bedrijven hun gegevens schrappen. "Het Reddit-datacorpus is echt waardevol", aldus Reddit-oprichter en CEO Steve HuffmanverteldNew York Times. "Maar we hoeven al deze waarde niet gratis te geven aan enkele van de grootste bedrijven ter wereld." Dit is niet de enige factor – Reddit probeert meer inkomsten uit het platform te persen voorafgaand aan een geplande beursgang later dit jaar – maar het laat zien hoe dergelijk schrapen zowel een bedreiging als een kans is voor het huidige internet, waardoor bedrijven ertoe worden aangezet de openheid van hun platforms.
Het is bekend dat Wikipedia op deze manier wordt geschraapt. De informatie van het bedrijf wordt al lang door Google hergebruikt om ‘kennispanels’ te bieden, en de afgelopen jaren is de zoekgigant begonnenbetalen voor deze informatie. Maar de moderators van Wikipedia zijn dat weldebathoe je nieuwe AI-taalmodellen kunt gebruiken om artikelen voor de site zelf te schrijven. Ze zijn zich terdege bewust van de problemen die gepaard gaan met deze systemen, die feiten en bronnen opleveren met een misleidende stroom, maar weten dat ze duidelijke voordelen bieden in termen van snelheid en schaal. “Het risico voor Wikipedia is dat mensen de kwaliteit ervan kunnen verminderen door er dingen in te gooien die ze niet hebben gecontroleerd”, zegt Amy Bruckman, hoogleraar online samenlevingen en auteur vanMoet je Wikipedia geloven?verteldMoederbord onlangs. "Ik denk niet dat er iets mis is met het gebruik ervan als eerste versie, maar elk punt moet worden bevestigd."
"Het voornaamste probleem is dat, hoewel de reacties die ChatGPT produceert een hoog foutenpercentage hebben, dit meestal ook het geval islijkt opvanmisschienWees aardig."
Stack Overflow biedt een soortgelijk, maar misschien extremer geval. Net als Reddit zijn ook de mods in staking, en net als de redacteuren van Wikipedia maken ze zich zorgen over de kwaliteit van door machines gegenereerde inhoud. Toen ChatGPT vorig jaar werd gelanceerd, was Stack Overflow het eerste grote platform dat dit deedverbiedenzijn output. Zoals de mods destijds schreven: "Het voornaamste probleem is dat, hoewel de reacties die ChatGPT produceert een hoog foutenpercentage hebben, ze meestallijkt opvanmisschienwees goed, en de antwoorden zijn heel gemakkelijk te produceren. Het kost te veel tijd om de resultaten te sorteren, dus besloten de mods het volledig te verbieden.
Het management van de site had echter andere plannen. Het bedrijf heeft het verbod sindsdien in wezen ongedaan gemaakt door de bewijslast te vergroten die nodig is om te voorkomen dat gebruikers AI-inhoud plaatsen, en kondigde aan dat het in plaats daarvan van deze technologie wil profiteren. Net als Reddit is Stack Overflow van plan dat te doenbedrijven belastendie zijn gegevens schrapt terwijlhun eigen AI-tools bouwen– vermoedelijk om met hen te concurreren. De strijd met de moderators gaat over de normen van de site en wie deze mag handhaven. De mods zeggen dat AI-uitvoer niet te vertrouwen is, maar managers zeggen dat het het risico waard is.
Al deze moeilijkheden zijn echter van weinig belang voor de veranderingen die bij Google plaatsvinden. Google Zoeken garandeert de economie van het moderne internet en verdeelt de aandacht en inkomsten over grote delen van het internet. Aangespoord tot actie door de populariteit van Bing AI en ChatGPT als alternatieve zoekmachines, experimenteert Google met het vervangen van de traditionele 10 blauwe links door door AI gegenereerde samenvattingen. Maar als het bedrijf doorgaat met dit plan, zullen de veranderingen ingrijpend zijn.
INhet schrijven van de AI-zoekbèta van Googlevan Avram Piltch, hoofdredacteur van de technologiewebsiteTom's hardware,belicht een aantal problemen. Piltch zegt dat het nieuwe systeem van Google in wezen een 'plagiaatmachine' is. De door AI gegenereerde samenvattingen kopiëren vaak tekst van websites woord voor woord, maar plaatsen deze inhoud boven bronlinks en verhongeren ze van verkeer. Het is een verandering waar Google al heel lang op aandringt, maar kijk naar de screenshots in het stuk van Piltch en je kunt zien hoe de balans sterk is verschoven ten gunste van inhoudsfragmenten. Als dit nieuwe zoekmodel de norm wordt, kan dit het hele internet beschadigen, schrijft Piltch. Sites die inkomsten genereren zouden waarschijnlijk failliet gaan en Google zelf zou geen door mensen gegenereerde inhoud meer hebben om opnieuw te verpakken.
Nogmaals, het is de dynamiek van AI – het produceren van goedkope inhoud op basis van het werk van anderen – die deze verandering onderschrijft, en als Google doorgaat met zijn huidige AI-zoekervaring, zal de impact moeilijk te voorspellen zijn. Mogelijk zal het hele delen van het internet beschadigen die de meesten van ons nuttig vinden – van productrecensies tot receptenblogs, hobbywebsites, nieuwskanalen en wiki's. Websites kunnen zichzelf beschermen door de toegang te blokkeren en hiervoor kosten in rekening te brengen, maar dit zou ook een enorme reorganisatie van de interneteconomie met zich meebrengen. Uiteindelijk kan Google het ecosysteem dat de waarde heeft gecreëerd vernietigen, of het zo onherroepelijk veranderen dat het voortbestaan ervan wordt bedreigd.
Illustratie door Alex Castro / The Verge
Maar wat gebeurt er als we AI hier het stuur laten overnemen en informatie aan de massa gaan verstrekken? Wat maakt het uit?
Welnu, het bewijs tot nu toe suggereert dat dit de kwaliteit van het internet in het algemeen zal aantasten. Zoals Piltch in zijn recensie opmerkt, zijn het, ondanks het beruchte vermogen van AI om tekst opnieuw te combineren, uiteindelijk de mensen die de onderliggende gegevens creëren – of het nu gaat om journalisten die de telefoon pakken en de feiten controleren, of Reddit-gebruikers dieexactdat batterijprobleem met de nieuwe DeWalt Cordless Ratchet en vertellen u graag hoe ze dit hebben opgelost. Daarentegen is de informatie die door AI-taalmodellen en chatbots wordt geproduceerd vaak verkeerd. Het moeilijke is dat als het verkeerd is, het ook verkeerd is op manieren die moeilijk te herkennen zijn.
Hier is een voorbeeld. Begin dit jaar heb ik onderzoek gedaanAI-agenten— systemen die gebruik maken van taalmodellen zoals ChatGPT die verbinding maken met online diensten en namens de gebruiker handelen, boodschappen bestellen of vluchten boeken. In een van de vele virale Twitter-threads waarin het potentieel van deze technologie wordt geprezen, schrijft de auteurstel je daar een scenario vooreen fabrikant van waterdichte schoenen wil marktonderzoek laten uitvoeren en wendt zich tot AutoGPT (een systeem dat bovenop de taalmodellen van OpenAI is gebouwd) om een rapport over potentiële concurrenten te genereren. Het resulterende recept is eenvoudig en voorspelbaar. (Je kunt het lezenhaar.) Het vermeldt vijf bedrijven, waaronder Columbia, Salomon en Merrell, samen met opsommingen die zogenaamd de voor- en nadelen van hun producten schetsen. "Columbia is een bekend en erkend merk voor outdooruitrusting en -schoenen", wordt ons verteld. "Hun waterdichte schoenen zijn er in verschillende stijlen" en "hun prijzen zijn concurrerend op de markt." Misschien kijk je hiernaar en denk je dat het zo banaal is dat het eigenlijk nutteloos is (en je hebt gelijk), maar de informatie is ook subtiel verkeerd.
Door AI gegenereerde inhoud is vaak subtiel verkeerd
Om de inhoud van het rapport te controleren, heb ik het doorgestuurd naar iemand van wie ik dacht dat hij een betrouwbare bron over dit onderwerp zou zijn: een moderator van de r/hiking-subreddit genaamd Chris. Chris vertelde me dat het rapport in wezen aanvullend was. "Het zijn een hoop woorden, maar wat er geschreven staat, heeft geen echte waarde", zei hij. Er worden geen belangrijke factoren vermeld, zoals het verschil tussen heren- en damesschoenen of de gebruikte soorten stoffen. Het zet de feiten verkeerd en rangschikt merken met een grotere online aanwezigheid als waardevoller. Over het geheel genomen, zegt Chris, zit er gewoon geen expertise in de informatie, alleen maar giswerk. "Als mij dezelfde vraag zou worden gesteld, zou ik een heel ander antwoord geven", zei hij. "Het opvolgen van advies van AI zal hoogstwaarschijnlijk resulteren in gewonde voeten op het parcours."
Dit is dezelfde klacht die door de mods van Stack Overflow wordt geïdentificeerd: dat door AI gegenereerde verkeerde informatie verraderlijk is omdat deze vaak onzichtbaar is. Het is vloeiend, maar niet gebaseerd op praktijkervaring, dus kiezen kost tijd en expertise. Als door machines gegenereerde inhoud het menselijk auteurschap vervangt, zou het moeilijk – zelfs onmogelijk – zijn om de schade volledig in kaart te brengen. En ja, mensen zijn ook veel bronnen van desinformatie, maar als AI-systemen ook de platforms in de hand werken waar menselijke expertise momenteel gedijt, zullen er minder mogelijkheden zijn om onze collectieve fouten te corrigeren.
Afbeelding:NieuwsGuard
De effecten van AI op het web zijn niet eenvoudig samen te vatten. Zelfs in het handjevol hierboven genoemde voorbeelden zijn er veel verschillende mechanismen in het spel. In sommige gevallen lijkt het erop dat de waargenomen dreiging van AI wordt gebruikt om veranderingen te rechtvaardigen die om andere redenen gewenst zijn (zoals bij Reddit), terwijl in andere gevallen AI een wapen is in een strijd tussen werknemers die de waarde van de site creëren en de mensen die de site runnen. (Stackoverloop). Er zijn ook andere domeinen waar het vermogen van AI om vakjes te vullen verschillende effecten heeft - van sociale netwerken waarmee wordt geëxperimenteerdAI-betrokkenheidnaar winkelsites waarAI genereerde afvalconcurreren met andere goederen.
In beide gevallen is er iets aan het vermogen van AI om te schalen: het simpele feit dat het rauw isovervloed– dat verandert een platform. Veel van de meest succesvolle sites op internet zijn sites die schaalgrootte in hun voordeel benutten, hetzij door sociale connecties of productkeuzes te vermenigvuldigen, hetzij door de enorme hoeveelheid informatie te doorzoeken waaruit het internet zelf bestaat. Maar deze schaal is afhankelijk van een heleboel mensen om de onderliggende waarde te creëren, en mensen kunnen AI niet verslaan als het gaat om massaproductie. (Hoewel het er veel zijnmenselijk werk achter de schermennodig om AI te creëren.) Er is een beroemd essay over machinaal leren bekend als "De bittere les”, waarin wordt opgemerkt dat decennia van onderzoek aantonen dat de beste manier om AI-systemen te verbeteren is om het niet te probereningenieurintelligentie, maar door simpelweg meer rekenkracht en data op het probleem te gooien. De les is bitter omdat deze aantoont dat machinale schaal het menselijke beheer overtreft. En hetzelfde kan het geval zijn met internet.
Maar moet dit een slechte zaak zijn? Als het web zoals wij dat kennen verandert als gevolg van kunstmatige overvloed? Sommigen zullen zeggen dat dit de manier van leven is in de wereld, waarbij ze opmerken dat het web zelf alles heeft gedood wat eraan voorafging, en vaak ten goede. Gedrukte encyclopedieën zijn bijvoorbeeld bijna uitgestorven, maar ik geef de voorkeur aan de breedte en toegankelijkheid van Wikipedia boven het gewicht en de veiligheid van de Encyclopedia Britannica. En ondanks alle problemen die gepaard gaan met door AI gegenereerd schrijven, zijn er ook tal van manieren om het te verbeteren – van verbeterde citatiefuncties tot meer menselijk toezicht. Plus, ook al is het internetisoverspoeld met AI-afval, zou het nuttig kunnen zijn en de ontwikkeling van beter gefinancierde platforms kunnen stimuleren. Als Google u bijvoorbeeld consequent ongewenste zoekresultaten geeft, bent u wellicht eerder geneigd om te betalen voor bronnen die u vertrouwt en deze rechtstreeks te bezoeken.
Eigenlijk zijn de veranderingen die AI momenteel veroorzaakt slechts de laatste in een lange strijd in de geschiedenis van het internet. In wezen is dit een strijd die voorbij isinformatie- over wie het maakt, hoe je er toegang toe krijgt en wie er betaald krijgt. Maar het feit dat het spel bekend is, betekent niet dat het er niet toe doet, noch garandeert het dat het systeem dat volgt beter zal zijn dan wat we nu hebben. Het nieuwe web heeft moeite om geboren te worden, en de beslissingen die we nu nemen zullen bepalen hoe het groeit.