Frontkom Fagblogg

Er det plass til personvern i kunstig intelligens?

Skrevet av Sven Hognestad | 11.06.2024

Et spørsmål som ble stilt om og om igjen da OpenAI slapp ChatGPT var: Kommer AI til å ta over jobbene våre? Det kan hende det er et godt spørsmål for å forberede seg på fremtiden, men akkurat i dag er det et annet spørsmål som er mye mer relevant: 

Kommer AI-selskaper til å lekke persondataene våre?

OpenAI-serverne er fulle av data om deg. Kanskje du har spurt ChatGPT om svar på et medisinsk spørsmål? Eller spurt om råd for å takle et familieproblem? Denne informasjonen kan ligge på OpenAIs servere på ubestemt tid. 

I tillegg er det høyst sannsynlig at språkmodellene akkurat nå trenes opp på ting du har postet på Facebook, Reddit, på nettsiden din, på LinkedIn, og så videre. 

Men er det egentlig så farlig? Hvem som helst kan vel lese det du legger ut offentlig? 

Jeg stilte det spørsmålet til Morten Rand-Henriksen, ekspert på UX og teknologietikk, og foredragsholder på bl.a. Y Oslo:

-Det er sant, og det er det de store bedriftene bruker som argument for å få lov til å hente inn mengden data de mener de trenger for å lage et godt produkt. Men en LLM er ikke hvem som helst. Ingen mennesker kan lese så mye, så fort, for det første. 

-For det andre kan den type data brukes for å lage “shadow accounts” - skjulte kontoer på f.eks. Facebook som simulerer brukere uten facebookkonto og prøver å forutse hva de kan komme på å gjøre i framtiden. Den informasjonen blir bl.a. brukt til å sende deg personaliserte annonser og utvikle funksjonalitet som skal holde deg på Facebook så lenge som mulig. Det er derfor du får metervis med Facebookannonser om toalettseter hvis du kjøper et toalettsete på Amazon, for eksempel.

-Dette er en del av et større sikkerhetsproblem som ikke bare angår LLMer. Hvis du besøker en nettside som bruker Open Graph, vil Facebook og andre platformselskaper kunne samle informasjon om deg uavhengig om du har en konto hos dem eller ikke. 

Facebook mener de er tydelige på hva slags informasjon de samler inn, og har innstillinger for tracking som du kan justere selv. Men det holder ikke å gi folk mulighet til å “opt-out”, mener Rand-Henriksen:

-Vi burde egentlig ha lover som krever at folk må “opt-in”, som du ser i cookie-bannere. Der må du gi eksplisitt samtykke til at bedriften kan samle inn data om deg. Facebook gjør det motsatte, og gjemmer opt-out-funksjonene bak uklart design og kronglete menyer. 

-Et eksempel er varselet om at de vil bruke informasjonen din til å trene opp sin egen sin egen LLM, LLama. Det kommer som et push-varsel som mange brukere er vant til å bare swipe vekk umiddelbart. Og hvis du gjør det, er det veldig vanskelig for brukerne å finne tilbake til opt-out-valget. Du må først gjennom flere menyer og trykke på en lenke som er lett å overse. Deretter kan du ikke bare velge å opt-out ved å trykke på en knapp - nei, du må søke om å få lov! Og dette har de kun lagt til for EU-brukere. Folk fra USA får ikke mulighet til å søke i det hele tatt. 

-Og selv om Facebook er verstingen, gjør alle de store tech-gigantene lignende ting. For å opt-out fra at informasjonen på nettsiden din skal bli brukt til å trene opp AI, må du skrive i robot.txt-filen på nettsiden din at du ikke vil bli indeksert. Men konsekvensen er at du heller ikke vil bli indeksert i søkemotorer. Nettsiden din er på den måten et slags gissel.

Open AI sier på sin side at:

I en verden hvor “retten til å bli glemt” er sentral for mye personvernslovgivning, gir bruk av AI-modeller som du ser en del utfordringer. Én ting er personlig informasjon, men ChatGPT blir jo også brukt til å språksjekke tilbud og kontraktsforhandlinger, analysere regneark med budsjetter, og redigere eposter fram og tilbake mellom ansatte i bedrifter og deres kunder og samarbeidspartnere.

EU er også skeptiske

I en preliminær rapport som undersøker om ChatGPT overholder GDPR, konkluderer European Data Protection Board (EDPB) med at:

  1. Når OpenAI “scraper” nettet, altså leser all mulig informasjon den finner, kan den fort komme over og bruke kilder som inneholder personlig informasjon.
  2. OpenAI må bevise at sikkerhetstiltakene de gjennomfører er nok til å oppdage og slette sensitiv data.
  3. Det er ikke nok at OpenAI advarer brukere mot å legge inn personlige data. De må selv finne løsninger for å beskytte brukerne.
  4. OpenAI må finne en måte redusere feilaktig informasjon på, i henhold til Artikkel5(1)(d) i GDPR.

Men om de i det hele tatt er interesserte i å løse sikkerhetsproblemer er litt usikkert: Ilya Sutskever, OpenAIs hovedgründer, sluttet nettopp i selskapet fordi han ikke fikk nok ressurser til å gjøre jobben sin. Det samme gjorde sjefsforsker og medgrunnlegger Jan Leike. Sikkerhetsteamet de var en del av ble deretter oppløst.

Det er generell konsensus blant OpenAIs kritikere at de ikke lenger tar sikkerhet på alvor. Det handler i hovedsak om at de kjører full fart forover uten å forsikre seg om at de ikke utvikler roboter som kan handle på måter som kan skade mennesker. Datasikkerhet er en del av dette - enten det gjelder sporing av mennesker som ikke bør bli sporet, informasjonslekkasjer som inneholder sensitive data eller annet.

En mulig løsning: kjør en LLM på en privat server

Skylagringsaktører som Google, Microsoft, AWS og Snowflake anbefaler å kjøre en privatversjon av en LLM på deres servere hvis du trenger å sikre sensitiv data. På den måten kan du isolere modellen fra omverdenen og sikre at ingen data finner veien til ukjente servere.

Problemet med det er at språkmodellen selv er et lukket system. Du kan for eksempel ikke gjøre finmaskede tilgangsjusteringer - en hvilken som helst person med tilgang til den private roboten har tilgang til all dataen den inneholder. Personvern innebærer å gi hver person kontroll over sin egen data, men siden proprietære LLMer ikke inneholder en sletteknapp er de i bunn og grunn like problemfylte som de offentlige versjonene.


Rand Henriksen: 

-Når en modell er trent, kan man nemlig ikke selektivt fjerne data som var med i treningen. Da må du slette modellen og starte på nytt, og det går jo ikke. Løsningen de store modellene bruker istedet er å legge inn filtre. Men filtre kan man alltid komme seg rundt - det de kaller "jailbreaking". Så hvis en europeer ber om å bli fjernet fra feks GPT-4o, er det eneste OpenAI kan gjøre å legge inn et filter som tar ut resultater med informasjon om den personen. 

En alternativ løsning: satse på åpen kildekode

Åpen kildekode er et begrep som beskriver et datasystem hvor hvem som helst med riktig kompetanse kan ha full innsikt i hva som skjer inni det. De har altså tilgang til å se hele koden. 

Fordelen med åpen kildekode er at man kan laste ned programmet og ta eierskap over det selv, og også endre det som man vil. Hvis man gjør en god endring, for eksempel ved å lage en nyttig modul, kan man legge den ut sånn at andre kan laste den ned. Du eier all koden, og dermed alle dine egne data. Du kan styre hvem som skal ha tilgang til hva, og du kan sikre dataene på en helt annen måte enn du kan i lukkede systemer.

Her ser du sikkert poenget med en gang: En LLM som har åpen kildekode vil kunne kontrolleres 100% av eieren, og dataene dine er trygge så lenge du har kompetente folk til å sette den opp.

En norsk løsning: NorLLM

3.juni 2024 lanserte NorwAI språkmodellen NorLLM, sammen med NTNU, SINTEF og Schibsted. Den er basert på Mistral, Llama 2 og Mixtral, overholder GDPR og er tilgjengelig for nedlasting for alle. NorwAI har rensket modellen for persondata som for eksempel epostadresser, har avtaler med eiere av innholdet og er trent opp på norske, svenske, danske og noen engelske tekster.

Det er veldig positivt både at det skapes et eget AI-miljø i Norge, og at det jobbes med modeller som tar hensyn til GDPR. Håpet er at modellene som bygges på åpen kildekode snart vil bli like gode og brukervennlige som de lukkede løsningene.

-I Norge er vi heldige, sier Rand-Hendriksen. 

-Vi har for eksempel Finn.no som et fullgodt alternativ til Facebook Marketplace. Vi må fortsette å utvikle robuste alternativer som gir bedre tjenester enn det de store plattformene tilbyr. 

-Tech-gigantene jobber mot å bli“first available agent” - at du bruker plattformene deres til absolutt alt du trenger, og aldri går videre til kilden for informasjonen. Vi ser det nå med Googles AI Overviews. Du skal stille spørsmål til søkemotoren, og den skal gi et AI-generert svar som gjør at du ikke trenger å klikke deg inn på nettsider. KI-systemet har da full kontroll over hvilken informasjon du ser, og kildene blir mindre og mindre relevante.

-Vi trenger både strengere regelverk og personlig ansvar fra de som kan ta det. Som Inga Strümke gjorde forleden: hun gikk ut og sa at hun nå ville slette facebook-kontoen sin. På nasjonalt nivå må vi bruke penger på å ansette anti-lobbyister: fagpersoner uten politisk tilknytning som kan faktasjekke når lobbyistene er ute og påstår ting om AI, personvern og datasikkerhet.

To utfordringer: kvalitet og pris

Det finnes mange LLMer med åpen kildekode for ulike formål. De som anses som best av Elo Arena, en portal for brukertesting og rangering av LLMer, er:

  • Llama 3 (Meta AI)
  • Command R+ (Cohere)
  • Qwen (Alibaba)
  • Yi (01.AI)
  • Mixtral (Mistral AI)
  • Zephyr (Hugging Face)
  • Reka Flash (Reka AI)
  • Phi (Microsoft)
  • Starling (NexusFlow)

Dessverre er ingen av disse modellene like bra som GPT-4o som den nyeste modellen heter, riktig enda. Likevel finnes det flere varianter av dem (modeller som endrer eller forbedrer språkmodellen) som kan måle seg med ChatGPT på visse parametre. 

Hvilken modell du eventuelt velger må derfor være avhengig av hva du har tenkt å bruke den til - ingen er like gode som GPT-4o på alle parametrene samtidig. Men utviklingen fortsetter i rakettfart, og avstanden opp til OpenAI er i dag mye mindre enn den var for bare noen måneder siden.

Det andre problemet er at for å kjøre de beste modellene eller variantene, trenger du en meget kraftig datamaskin, eller å kjøre den på en server som klarer påkjenningen. I tillegg må du ha kompetente folk som oppdaterer og justerer den jevnlig. Og det koster jo penger. Men til gjengjeld er selve modellen gratis!

Bør du investere i en åpen kildekode-språkmodell for å beskytte dataene dine?

I en ideell verden: helt klart ja. Hvis du har tilgang til gode utviklere som vet hva de driver med, og i tillegg nok CPU og serverplass, er det liten grunn til at du bør fortsette med å bruke noen av de andre proprietære versjonene. Personvernet og datasikkerheten står helt klart på spill her.

Når det er sagt, vil du ikke bli straffet for å bruke GPT-4o, Copilot, Gemini eller noen av de andre lukkede løsningene i dag. Litt som under Google Analytics-krisen for litt siden er det opp til større selskaper og maktinstanser enn oss (og sannsynligvis deg) å løse opp i floken. I mellomtiden må vi være pragmatiske og bruke løsningene som effektiviserer hverdagen der du er i dag. Det er nemlig ikke noe alternativ: 

Hvis du ikke bruker AI vil du sakke akterut.

Det er derfor vi både kan sette opp f.eks. Llama på dine servere, og samtidig tilbyr kurs hvor vi lærer deg grunnleggende bruk av ChatGPT og setter opp GPT’er (spesialtilpassede versjoner av ChatGPT) for å effektivisere arbeidet i bedriften din. 

Regjeringen har satt som mål at 80% av offentlig sektor skal ta i bruk AI innen 2025, og det vil vi bidra til å oppnå, også innen privat sektor. 

Ta gjerne kontakt med oss via kontaktskjemaet vårt hvis du vil vite mer om bruk av AI på arbeidsplassen.