Gå direkt till innehåll Gå direkt till meny

AI-nyheter: oktober 2025

Google Gemini 2.5 “Computer Use”

Vad det är: Google släppte en AI-modell som kan styra webbläsare genom att analysera skärmdumpar och instruera automatiseringsverktyg. Modellen använder Gemini 2.5 Pro under huven.

Hur det fungerar:

  • Din kod tar en skärmdump av webbläsaren.
  • Skärmdumpen och din instruktion skickas till Gemini API.
  • Modellen analyserar bilden och returnerar konkreta kommandon (t.ex. “klicka på koordinat x,y”).
  • Din kod (via verktyg som Playwright) utför åtgärden automatiskt.
  • Ny skärmdump tas och processen upprepas tills uppgiften är klar.

Praktiska detaljer: Detta är ett API för utvecklare, inte en färdig produkt. Du måste själv bygga “agent-loopen” som hanterar screenshots och utför åtgärder. Modellen kan klicka, skriva text, scrolla och navigera. Fungerar i webbläsare, inte för att styra hela operativsystemet eller andra program. Inbyggda säkerhetskontroller utvärderar varje åtgärd innan den utförs.

Varför det är intressant: Många företagssystem (t.ex. HR-portaler, intranät, administrativa verktyg) saknar API:er. Computer Use gör det möjligt att automatisera dessa genom att agera som en mänsklig användare i webbläsaren. Google säger att modellen presterar starkt på web- och mobil-benchmarks.

Användningsfall: Automatisera UI-tester, datainsamling från webbportaler utan API, automatisk ifyllning av formulär.

Begränsningar: Modellen är i preview-läge och rekommenderas inte för produktionsmiljöer. Utvecklare bör kräva manuell bekräftelse inför alla känsliga åtgärder.

Datacenter i rymden

Vad det är: Axiom Space planerar att skicka upp de första kommersiella datacenternoderna till rymden, kallade Orbital Data Center (ODC). De två första noderna ska lanseras under 2025.

Varför skicka datacenter till rymden?

  • Kylning: Värme kan avledas genom strålning i vakuum utan behov av vatten.
  • Energi: Konstant solenergi.
  • Närheten till data: Kan bearbeta data från satelliter direkt i omloppsbana utan att skicka ner till marken först.

Användning: Bearbeta bilder från satelliter, köra AI-analyser på satellitdata utan fördröjning och träna AI-modeller.

Varför det är intressant: Ett experiment som kan förändra hur data analyseras. Om tekniken fungerar kan satelliter analysera sin data direkt i rymden och endast skicka ner larm, istället för stora datamängder.

Kalifornien SB 243 – Ny lag för AI-chatbots

Vad det är: Kalifornien är en av de första delstaterna i USA att anta en lag som reglerar AI-chatbots som marknadsförs som “sällskap” (t.ex. Character.AI, Replika). Lagen träder i kraft 1 januari 2026.

Lagkrav:

  • Chatbots måste tydligt märkas som AI.
  • Företag måste upptäcka användare med självmordstankar och hänvisa till krislinje.
  • Chatbots får inte visa sexuellt innehåll till barn.
  • Privatpersoner kan stämma företag som bryter mot lagen.

Varför det är intressant: Första gången en amerikansk delstat kräver inbyggd krishantering i AI-produkter. Kalifornien sätter ofta standard som andra följer.

Google Veo 3.1

Vad det är: Googles text-till-video-modell Veo har uppdaterats till version 3.1 med bättre ljud, fysik och realism samt större kreativ kontroll.

Praktiska detaljer:

  • Genererar 8s videor i upp till 1080p.
  • Kan kedjas ihop till klipp upp till 60s.
  • Stöd för start/slutbild, stil och andra redigeringsparametrar.
  • Tillgänglig via Google AI Studio och Flow.

Varför det är intressant: Veo 3.1 har återtagit förstaplatsen på LMArena Leaderboard (Elo ~1390) och ligger före Sora 2 Pro. Ökar pressen på OpenAI att förlänga sina videor.

NVIDIA DGX Spark

Vad det är: En kompakt och tyst AI-dator för skrivbordet. Bygger på GB10 Grace Blackwell med upp till 1 PFLOPS (FP4) och 128 GB gemensamt CPU/GPU-minne. Kan köra modeller upp till 200B parametrar.

Praktiska detaljer:

  • Pris: 4 000 USD (billigare OEM-versioner väntas).
  • Levereras med NVIDIA AI-stack.
  • Prestanda: ca 4,5 tokens/s med Llama 70B.

Varför det är intressant: Ger utvecklare möjlighet att köra och finjustera AI-modeller lokalt utan molntjänster. Det gemensamma minnet gör detta möjligt.

Begränsningar: För långsam för produktion och fleranvändning, samt dyr för hobbybruk.

Sora 2 – Längre videoklipp

Vad det är: OpenAI har uppdaterat Sora 2 med stöd för längre videor. Alla användare kan nu generera 15-sekunders klipp, Pro-användare upp till 25 sekunder.

  • Storyboard-funktion för flera scener i följd.
  • Stöd för 1080p-upplösning.

Varför det är intressant: Konkurrensen mellan OpenAI och Google (Veo 3.1) hårdnar. Längre klipp gör det enklare att skapa sammanhängande berättelser – särskilt användbart i marknadsföring och reklam.

DeepSeek-OCR

Vad det är: Ett öppet verktyg för OCR (optical character recognition) som komprimerar text till “vision-tokens” vilket minskar antalet tokens kraftigt.

Resultat:

  • 97 % noggrannhet vid 10× komprimering.
  • 60 % noggrannhet vid 20× komprimering.
  • Ett dokument med 800 tokens kan reduceras till 100 bildtokens.

Varför det är intressant: Färre tokens innebär lägre kostnader vid AI-bearbetning av stora dokument.

Praktiska detaljer: Kod och vikter på GitHub (MIT-licens). Fick stöd i vLLM 23 okt 2025.

Begränsningar: Vid högre komprimering sjunker noggrannheten markant.

ChatGPT Atlas – OpenAIs webbläsare

Vad det är: En webbläsare baserad på Chromium med ChatGPT i sidopanel som kan se och interagera med webbsidor du besöker.

Tillgänglighet: För macOS (fler plattformar kommer). Gratis i basläge, Agent Mode kräver prenumeration.

Funktioner:

  • ChatGPT i sidopanel som förstår sidan du är på.
  • Kan sammanfatta, jämföra, skriva och redigera direkt i formulär.
  • Agent Mode: kan klicka, navigera och boka automatiskt.
  • Minnesfunktion för tidigare preferenser.

Feedback: Snabb och praktisk – men stora säkerhetsrisker med prompt-injektion. Rekommenderas inte för känsliga uppgifter.

Google “Gemini Vibe Coding”

Vad det är: Ny funktion i Google AI Studio där du beskriver en app i text och får en fungerande webbapp genererad automatiskt.

  • AI Studio genererar kod och live-förhandsvisning.
  • Du kan peka på delar och be om ändringar (“gör knappen blå”).
  • Appen kan publiceras direkt på Cloud Run.

Praktiska detaljer: Gratis i testläge, vissa funktioner kräver betald API-nyckel.

Begränsningar: Kodkvalitet varierar – främst avsedd för prototyper, inte produktionssystem.

EU-samråd om rapportering av allvarliga AI-incidenter

Vad det är: EU-kommissionen har publicerat ett utkast till regler för hur företag ska rapportera allvarliga AI-incidenter enligt artikel 73 i AI-förordningen.

  • Gäller högrisksystem som orsakar dödsfall, skada på hälsa, infrastruktur eller miljö.
  • Rapporteringsfrist: 2–15 dagar beroende på allvar.
  • Planerad tillämpning: augusti 2026.

Varför det är intressant: Tar AI-akten från teori till praktik och etablerar process för ansvar och rapportering i EU.

Gemini 3.0 (Rykten – Google)

Vad vi vet: Användare på Reddit och YouTube rapporterar svar märkta “Gemini 3.0” i Google AI Studio. Google har inte bekräftat någon lansering – troligen A/B-tester.

Varför det är intressant: Gemini 3.0 väntas bli markant bättre på kodning och webbutveckling än 2.5 Pro, vilket kan pressa konkurrenter. Men inga officiella detaljer finns ännu.

Mojgan Farmahini

Tobias Carlsson

Hör av dig till oss redan idag

När du bokar ett möte med oss kan du förvänta dig:

  • En personlig dialog med vårt team för att hitta lösningar som passar just er
  • Konkret vägledning för att bygga, effektivisera och utveckla era system
  • Inspirerande idéer från våra experter med djup teknisk kompetens

 

Please fill out