Indblik i Googles AI Bard’s træningssæt: 15 millioner websites

Jan Birkemose leverer – som altid – nødvendig information i Medietrends nyhedsbrevet. I dag i nyhedsbrevet med henvisningen til Washington Posts analyse af det træningssæt med 15 millioner websites, som Googles Large Language Model, Bard, bruger.

Det er interessant at sidde og læse – fx fordelingen af emner og typer, som de 15 millioner websites kan inddeles i. Og du kan søge på din egen eller din virksomheds hjemmesiden. Jeg arbejder i IDA – og ida.dk ligger som nr. 6,874,486 og har leveret 1.300 tokens.

Hvad er et token, tænker du ?
Udtrykket bliver brugt ift bl.a. LLM – og tokens er almindeligt forekommende sekvenser af karakterer i en tekst. Det er fx ” I, ID,A, ar,be,j,der,vi,med,” = 9 tokens.

LLM arbejder med tokens til at kunne levere output på prompts / instrukser. Du kan kan tjekke tokens i tekst på open.ai Tokenizer

Washington Posts analyse er en god illustration af, hvad LLM og firmaerne bag bruger til at bygge deres modeller og tjene penge på. Debatten om hvad det byder, er først lige gået i gang.

Kim Elmose

Indblik i Googles AI Bard’s træningssæt: 15 millioner websites

Leave a Comment Cancel

Søg

Seneste indlæg

Seneste indlæg – Politik

Jeg er kandidat til Europa-Parlamentsvalget i 2024 for SF

Seneste indlæg – webkommunikation

Tech-giganter vil bygge ‘Walled Gardens’ med AI

Seneste indlæg – digitalt privatliv

Digitalt Selvforsvar: Tips og tricks

Arkiv

Tags