Jan Birkemose leverer – som altid – nødvendig information i Medietrends nyhedsbrevet. I dag i nyhedsbrevet med henvisningen til Washington Posts analyse af det træningssæt med 15 millioner websites, som Googles Large Language Model, Bard, bruger.
Det er interessant at sidde og læse – fx fordelingen af emner og typer, som de 15 millioner websites kan inddeles i. Og du kan søge på din egen eller din virksomheds hjemmesiden. Jeg arbejder i IDA – og ida.dk ligger som nr. 6,874,486 og har leveret 1.300 tokens.
Hvad er et token, tænker du ?
Udtrykket bliver brugt ift bl.a. LLM – og tokens er almindeligt forekommende sekvenser af karakterer i en tekst. Det er fx ” I, ID,A, ar,be,j,der,vi,med,” = 9 tokens.
LLM arbejder med tokens til at kunne levere output på prompts / instrukser. Du kan kan tjekke tokens i tekst på open.ai Tokenizer
Washington Posts analyse er en god illustration af, hvad LLM og firmaerne bag bruger til at bygge deres modeller og tjene penge på. Debatten om hvad det byder, er først lige gået i gang.