Google Gemini 2.5 “Computer Use”
Vad det är: Google släppte en AI-modell som kan styra webbläsare genom att analysera skärmdumpar och instruera automatiseringsverktyg. Modellen använder Gemini 2.5 Pro under huven.
Hur det fungerar:
- Din kod tar en skärmdump av webbläsaren.
- Skärmdumpen och din instruktion skickas till Gemini API.
- Modellen analyserar bilden och returnerar konkreta kommandon (t.ex. “klicka på koordinat x,y”).
- Din kod (via verktyg som Playwright) utför åtgärden automatiskt.
- Ny skärmdump tas och processen upprepas tills uppgiften är klar.
Praktiska detaljer: Detta är ett API för utvecklare, inte en färdig produkt. Du måste själv bygga “agent-loopen” som hanterar screenshots och utför åtgärder. Modellen kan klicka, skriva text, scrolla och navigera. Fungerar i webbläsare, inte för att styra hela operativsystemet eller andra program. Inbyggda säkerhetskontroller utvärderar varje åtgärd innan den utförs.
Varför det är intressant: Många företagssystem (t.ex. HR-portaler, intranät, administrativa verktyg) saknar API:er. Computer Use gör det möjligt att automatisera dessa genom att agera som en mänsklig användare i webbläsaren. Google säger att modellen presterar starkt på web- och mobil-benchmarks.
Användningsfall: Automatisera UI-tester, datainsamling från webbportaler utan API, automatisk ifyllning av formulär.
Begränsningar: Modellen är i preview-läge och rekommenderas inte för produktionsmiljöer. Utvecklare bör kräva manuell bekräftelse inför alla känsliga åtgärder.
Datacenter i rymden
Vad det är: Axiom Space planerar att skicka upp de första kommersiella datacenternoderna till rymden, kallade Orbital Data Center (ODC). De två första noderna ska lanseras under 2025.
Varför skicka datacenter till rymden?
- Kylning: Värme kan avledas genom strålning i vakuum utan behov av vatten.
- Energi: Konstant solenergi.
- Närheten till data: Kan bearbeta data från satelliter direkt i omloppsbana utan att skicka ner till marken först.
Användning: Bearbeta bilder från satelliter, köra AI-analyser på satellitdata utan fördröjning och träna AI-modeller.
Varför det är intressant: Ett experiment som kan förändra hur data analyseras. Om tekniken fungerar kan satelliter analysera sin data direkt i rymden och endast skicka ner larm, istället för stora datamängder.
Kalifornien SB 243 – Ny lag för AI-chatbots
Vad det är: Kalifornien är en av de första delstaterna i USA att anta en lag som reglerar AI-chatbots som marknadsförs som “sällskap” (t.ex. Character.AI, Replika). Lagen träder i kraft 1 januari 2026.
Lagkrav:
- Chatbots måste tydligt märkas som AI.
- Företag måste upptäcka användare med självmordstankar och hänvisa till krislinje.
- Chatbots får inte visa sexuellt innehåll till barn.
- Privatpersoner kan stämma företag som bryter mot lagen.
Varför det är intressant: Första gången en amerikansk delstat kräver inbyggd krishantering i AI-produkter. Kalifornien sätter ofta standard som andra följer.
Google Veo 3.1
Vad det är: Googles text-till-video-modell Veo har uppdaterats till version 3.1 med bättre ljud, fysik och realism samt större kreativ kontroll.
Praktiska detaljer:
- Genererar 8s videor i upp till 1080p.
- Kan kedjas ihop till klipp upp till 60s.
- Stöd för start/slutbild, stil och andra redigeringsparametrar.
- Tillgänglig via Google AI Studio och Flow.
Varför det är intressant: Veo 3.1 har återtagit förstaplatsen på LMArena Leaderboard (Elo ~1390) och ligger före Sora 2 Pro. Ökar pressen på OpenAI att förlänga sina videor.
NVIDIA DGX Spark
Vad det är: En kompakt och tyst AI-dator för skrivbordet. Bygger på GB10 Grace Blackwell med upp till 1 PFLOPS (FP4) och 128 GB gemensamt CPU/GPU-minne. Kan köra modeller upp till 200B parametrar.
Praktiska detaljer:
- Pris: 4 000 USD (billigare OEM-versioner väntas).
- Levereras med NVIDIA AI-stack.
- Prestanda: ca 4,5 tokens/s med Llama 70B.
Varför det är intressant: Ger utvecklare möjlighet att köra och finjustera AI-modeller lokalt utan molntjänster. Det gemensamma minnet gör detta möjligt.
Begränsningar: För långsam för produktion och fleranvändning, samt dyr för hobbybruk.
Sora 2 – Längre videoklipp
Vad det är: OpenAI har uppdaterat Sora 2 med stöd för längre videor. Alla användare kan nu generera 15-sekunders klipp, Pro-användare upp till 25 sekunder.
- Storyboard-funktion för flera scener i följd.
- Stöd för 1080p-upplösning.
Varför det är intressant: Konkurrensen mellan OpenAI och Google (Veo 3.1) hårdnar. Längre klipp gör det enklare att skapa sammanhängande berättelser – särskilt användbart i marknadsföring och reklam.
DeepSeek-OCR
Vad det är: Ett öppet verktyg för OCR (optical character recognition) som komprimerar text till “vision-tokens” vilket minskar antalet tokens kraftigt.
Resultat:
- 97 % noggrannhet vid 10× komprimering.
- 60 % noggrannhet vid 20× komprimering.
- Ett dokument med 800 tokens kan reduceras till 100 bildtokens.
Varför det är intressant: Färre tokens innebär lägre kostnader vid AI-bearbetning av stora dokument.
Praktiska detaljer: Kod och vikter på GitHub (MIT-licens). Fick stöd i vLLM 23 okt 2025.
Begränsningar: Vid högre komprimering sjunker noggrannheten markant.
ChatGPT Atlas – OpenAIs webbläsare
Vad det är: En webbläsare baserad på Chromium med ChatGPT i sidopanel som kan se och interagera med webbsidor du besöker.
Tillgänglighet: För macOS (fler plattformar kommer). Gratis i basläge, Agent Mode kräver prenumeration.
Funktioner:
- ChatGPT i sidopanel som förstår sidan du är på.
- Kan sammanfatta, jämföra, skriva och redigera direkt i formulär.
- Agent Mode: kan klicka, navigera och boka automatiskt.
- Minnesfunktion för tidigare preferenser.
Feedback: Snabb och praktisk – men stora säkerhetsrisker med prompt-injektion. Rekommenderas inte för känsliga uppgifter.
Google “Gemini Vibe Coding”
Vad det är: Ny funktion i Google AI Studio där du beskriver en app i text och får en fungerande webbapp genererad automatiskt.
- AI Studio genererar kod och live-förhandsvisning.
- Du kan peka på delar och be om ändringar (“gör knappen blå”).
- Appen kan publiceras direkt på Cloud Run.
Praktiska detaljer: Gratis i testläge, vissa funktioner kräver betald API-nyckel.
Begränsningar: Kodkvalitet varierar – främst avsedd för prototyper, inte produktionssystem.
EU-samråd om rapportering av allvarliga AI-incidenter
Vad det är: EU-kommissionen har publicerat ett utkast till regler för hur företag ska rapportera allvarliga AI-incidenter enligt artikel 73 i AI-förordningen.
- Gäller högrisksystem som orsakar dödsfall, skada på hälsa, infrastruktur eller miljö.
- Rapporteringsfrist: 2–15 dagar beroende på allvar.
- Planerad tillämpning: augusti 2026.
Varför det är intressant: Tar AI-akten från teori till praktik och etablerar process för ansvar och rapportering i EU.
Gemini 3.0 (Rykten – Google)
Vad vi vet: Användare på Reddit och YouTube rapporterar svar märkta “Gemini 3.0” i Google AI Studio. Google har inte bekräftat någon lansering – troligen A/B-tester.
Varför det är intressant: Gemini 3.0 väntas bli markant bättre på kodning och webbutveckling än 2.5 Pro, vilket kan pressa konkurrenter. Men inga officiella detaljer finns ännu.