Gå direkt till innehåll Gå direkt till meny

AI-nyheter juli 2025

Grok 4 – Smartaste modellen på marknaden

I början av juli lanserade xAI Grok 4, i två versioner: SuperGrok och SuperGrok Heavy. Det är i dagsläget den mest avancerade AI-modellen på marknaden och den inkluderar inbyggd verktygsanvändning och sökfunktionalitet redan i sin träning.

Den enklare modellen kostar 400 kr per månad i Sverige, medan SuperGrok Heavy ligger på 4000 kr per månad. Trenden med allt dyrare toppmodeller fortsätter alltså.

Skillnaden mellan de två versionerna ligger i hur SuperGrok Heavy hanterar promptar. Den dyrare delar upp uppgiften mellan flera agenter som var för sig bearbetar informationen och delar resultatet med varandra – för att slutligen gemensamt komma fram till det “bästa svaret”. Detta kräver självklart stor beräkningskraft, vilket också förklarar det höga priset – snäppet över OpenAI:s Pro-modeller.

Grok 4 toppar nu de flesta, men inte alla, benchmark-tester. Vi har dock nått en punkt där allt fler tittar på de allra mest krävande benchmarken – och där sticker Grok 4 verkligen ut. På Humans Last Exam får Grok 4 hela 50,7 % vid användning av verktyg och internet, och 25,4 % utan verktyg. Som jämförelse får OpenAI:s o3 maximalt 20,3 % och Googles Gemini 2.5 Pro 21,8 %.

Ett annat särskilt krävande test, Arc-AGI-2, som är utformat för att vara extremt svårt för AI men samtidigt enkelt för människor, får Grok 4 hela 16 %. På andra plats kommer Claude Opus 4 med 8,6 %, och o3 får 6,5 %.

I Chatbot Arena hamnar Grok 4 däremot på fjärde plats, där Gemini 2.5 Pro fortfarande leder. I SimpleBench som är utformat för att aktivt lura AI på villospår samtidigt som det är relativt enkelt för människor (genomsnitt för människor är 83,7%), så får Grok 4 60,5 %, precis efter Gemini 2.5 Pro på 62,4 %, men före både Claude 4 Opus (58,8 %) och o3 (53,1 %).
Precis som ChatGPT-4o kan Grok 4 även generera både bilder och tal men Grok 4 är på gott och ont betydligt mindre restriktiv.

Många användare har dock kritiserat modellen för att vara långsam – svarstiderna är ofta långa, oavsett prompt. Vi ser också att många användare ändå föredrar Gemini 2.5 Pro eller Claude 4 Opus för olika typer av uppgifter. Åsikterna går isär, men det råder ingen tvekan om att Grok 4 tillhör AI-modellernas absoluta toppskikt. Den konkurrerar direkt med Gemini 2.5 Pro, Claude 4 Opus och o3 – och vilken som passar bäst för just dina behov avgörs bäst genom att testa själv. Det bör även nämnas att xAI planerade redan vid sin release att uppgradera både kod- och vision-moduler kommande månader, och mot slutet av året planeras även videogenerering vara möjlig direkt i Grok 4. Med andra ord så kommer en redan bra modell att bli ännu bättre under hösten.

ChatGPT Agent – från dialog till handling

I mitten av juli lanserade OpenAI sitt nya agent-läge för alla betalande användare. Agenten får en virtuell dator där den kan öppna webbläsare, logga in bakom CAPTCHAs, köra kod och skapa färdiga filer såsom kalkylark och presentationer. Nedan är en mer detaljerad genomgång för hur den fungerar, vad den kan göra och vad som väntar framöver:

1. Integration av Operator och Deep Research

Tidigare lät Operator ChatGPT interagera med webbplatser (klicka, skriva, scrolla) medan Deep Research var stark på att analysera och sammanfatta information. ChatGPT Agent kombinerar dessa i ett enda “agentläge”, så att du både kan hämta in data och agera på den utan att byta verktyg. Under huven körs allt i en sandboxad “virtuell dator” med inbyggd webbläsare, terminal för kodkörning och filsystem för att skapa och hämta dokument.

2. Kärnfunktioner & användningsområden

  • Webbautomation: Logga in på sajter (även bakom CAPTCHA), hämta data, jämföra produkter och organisera resultaten i kalkylark.
  • Kalenderhantering: Granska din kalender, sammanfatta kommande möten och föreslå lediga tider.
  • Innehållsskapande: Generera bildspel, rapporter och presentationer automatiskt genom att kombinera forskningsresultat med fördefinierade mallar.
  • Kodkörning: Kör skript eller kodsnuttar via Code Interpreter och få resultatet direkt i chatten.

3. Säkerhet & behörigheter

Vissa åtgärder – som att logga in eller skicka formulär – kräver aktivt godkännande från användaren. Agenten har minnesfunktionen avstängd för att motverka prompt-injektioner, och realtidsövervakning larmar om misstänkt beteende. Du kan när som helst pausa eller stoppa agenten med en knapptryckning.

4. Tillgänglighet & begränsningar

  • Lansering: Direkt tillgänglig för Pro-, Plus- och Team-prenumeranter via verktygsmenyn. Den fristående Operator-tjänsten (operator.chatgpt.com) kommer snart att fasas ut.
  • Enterprise & Utbildning: Stöd släpps inom några veckor.
  • Användartak: Till exempel är Pro-användare inledningsvis begränsade till cirka 400 agent-promptar per månad, med lägre nivåer på andra planer – OpenAI kommer justera takten efter behov.

5. Väg framåt & iteration

OpenAI betonar att detta bara är början. De planerar regelbundna förbättringar, bland annat fler integrationer (djupare Gmail/GitHub-kopplingar) och mer avancerade resonemangsförmågor över tid.

AI tar guld i international math olympiad (IMO)

Både OpenAI:s och DeepMinds experimentella modeller löste 5 av 6 uppgifter (35/42 poäng) i årets IMO och kammade därmed hem guldmedaljer för första gången. Resultaten bygger på multi-steg-reasoning och RL-finetuning i naturligt språk, inte formella bevis-motorer eller matematiska verktyg. Detta betyder att idag kan rena LLM lösa extremt komplicerade matematiska problem utan hjälp. Open AI och Google har dock varit tydliga med att detta inte är vanliga konsumentmodeller – förmodligen är de extremt kostsamma i drift.
Konsekvens: På sikt kan liknande tekniker hjälpa forskare i fysik/matematik, och potentiellt optimera kommande AI modeller och design av GPU:er vilket skulle accelerera utveckling av AI ytterligare. Dock visade resultatet att de allra skickligaste människorna fortfarande är bäst – åtminstone i 2025 års tävling.

Finansiering – Frontier labb, extrema värderingar

Iconiq Capital leder en runda på upp till $5 mdr som skulle värdera Anthropic till $170 mdr – nästan tredubbla värdet sedan mars. Företaget närmar sig $4 mdr ARR och öppnar nu upp för kapital från Mellanöstern, trots tidigare etiska betänkligheter.
Signalvärde: Marknaden bedömer att mega-LLM-skapare förtjänar halv-till kvarts-biljon­värderingar även innan lönsamhet. Oavsett om man personligen anser AI vara hype eller inte så anser investerare att AI har extremt stor potential för verklig ekonomisk nytta.

Reglering – EU:s GPAI Code of Practice spikas

Varför en frivillig uppförandekod – och varför nu?

Den 10 juli 2025 publicerade EU-kommissionen sitt General-Purpose AI (GPAI) Code of Practice, en ”soft law”-ram skapad av 13 oberoende experter med input från över 1 000 intressenter: allt från akademiker till AI-säkerhetsspecialister och småföretag. Tanken är att ge AI-leverantörer snälla men handfasta riktlinjer i den tuffare AI-lagstiftningen som träder i kraft 2 augusti.

Tre löften som gör skillnad

1. Transparens

Du får vägledning i hur du tydligt redovisar hur och varifrån din LLM har tränats. Inga kryptiska ”hemliga dataset” accepteras.

2. Copyright med finess

Ingen vill hamna i upphovsrättstrubbel. Koden ger dig recept på hur du visar att dina träningsdata är lagliga, utan att krypa på biblioteksgolvet efter varje PDF.

3. Säkerhet för de mest avancerade modellernat

För de mest avancerade modellerna (GPAI-SR) finns ett helt kapitel om state-of-the-art säkerhetsåtgärder – säkerställer att AI-modeller inte blir vilda västern-robotar.

Vilka har redan skrivit under?

Google hakade på direkt: ”Vi vill ju kunna erbjuda säkra och pålitliga AI-verktyg i hela Europa” – men varnade för att vissa krav kan bli byråkratiska hinder för innovation. Microsoft lutar åt att skriva under, medan Meta ännu viftar bort uppförandekoden som osäkra rättsregler för utvecklare.

Kort och gott – varför är detta viktigt?

  • Övertag i förtroendekampen: Kunder (och politiker) gillar leverantörer som ”skrivit på” och syns i rätt forum.
  • Minimerad juridisk risk: För att undvika miljonböter (upp till 7 % av globala intäkter!) är koden en värdefull karta.
  • Chans att forma ramverket: Genom att vara tidig aktör som skriver under kan du påverka kommande guidelines och tolkningsfrågor.

Geopolitik – Kina vill ha globalt AI-samarbets­organ

Bakgrund: när rivalerna fokuserar på olika spelplaner

I takt med att USA driver ett “America First”-regelverk för AI (dvs, “minimera hinder för innovation”), stegade Kina in på World AI Conference i Shanghai den 26 juli och sa ungefär: “Hej, låt oss göra det här tillsammans!” The Times of IndiaFinancial Times. Kinesiska premiärminister Li Qiang presenterade ett ambitiöst förslag om en World Artificial Intelligence Cooperation Organization (tentativt baserat i Shanghai), med målet att samla länder, företag och forskare under en gemensam flagg för AI-styrning TechNodeenglish.shanghai.gov.cn.

Huvudpunkterna i Kinas förslag

1. Inkluderande samarbete
a. Undvik att AI blir “en exklusiv lekstuga för några få”. Kina vill att alla, inklusive Global South, ska ha en röst och delaktighet. The Times of India
2. Gemensamma säkerhetsregler
a. Standardiserade säkerhetskrav för att förhindra olyckor och missbruk. Tänk gemensam “säkerhets-roadmap” som alla skriver på.
3. FN-förankring
a. Förslaget rekommenderar att det nya samarbetsorganet är knutet till FN-systemet för att ge det extra tyngd och legitimitet. WIRED
4. Teknisk utjämning
a. Dela forskning, öppna kinesiska open-sourceprojekt och finansiera undervisningsinitiativ i låginkomstländer för att undvika digital klyfta.

Säkerhet – Kritisk lucka i Gemini CLI

Upptäckten: två dagar till fullföljt angrepp

Redan två dagar efter lanseringen den 25 juni 2025 hittade säkerhetsforskarna på Tracebit en allvarlig brist i Geminis nya kommandorads­gränssnitt. Genom att studera hur verktyget hanterar “tillåtna” kommandon (allow-list) insåg de att en angripare kunde gömma skadlig kod bakom ett till synes harmlöst alias – till exempel “grep” – och sedan få Gemini CLI att exekvera den dold utan extra godkännande.

Attackvektorn: dold kod i vanliga filer

Kärnan i sårbarheten låg i hur Gemini CLI laddar in kontext från projekt­filer (såsom README.md eller GEMINI.md). När användaren hade vitlistat ett kommando (”always allow”), kunde offensiva instruktioner paketeras in i dessa filer. Vid körning tolkades de som betrodda och exekverades tyst – allt från att läsa miljövariabler (env) till att skicka data till angriparens server via curl.

Konsekvenser: stulen kod och data

Med standardkonfigurationen kunde en utvecklare som arbetar i ett öppet repo – eller laddar ner kod från okända källor – helt omedvetet ge angriparen tillträde till känsliga API-nycklar, användar­uppgifter eller interna konfigurationer. Attacken krävde visserligen viss förberedelse (ett paketerat repo och social engineering för att få användaren att köra verktyget), men följderna kunde bli stora i en CI/CD-pipeline eller under lokal utveckling BleepingComputer.

Snabb respons: patchen v0.1.14

Den 25 juli rullade Google ut Gemini CLI v0.1.14, där man:

  • Förstärkte kommandoparsning så att varje alias måste exakt matcha användarens whitelist-val.
  • Visar nu alla påbjudna kommandon i en tydlig lista innan exekvering, även länkar till externa binärer.
  • Kräver explicit godkännande för skript eller binärer som inte är standardverktyg i systemets PATH Cyber Security NewsDaily Security Review.

Google betonade också sina sandbox-alternativ (Docker, Podman, macOS Seatbelt) och varnar sedan versionen för användare som väljer att köra utan skydd.

Övriga källor:

ChatGPT agent – release notes – OpenAI Help Center
OpenAI launches a general purpose agent in ChatGPT
OpenAI launches personal assistant capable of controlling files and web browsers
ChatGPT’s new AI agent can browse the web and create PowerPoint …
OpenAI’s New ChatGPT Agent Could Expose Your Privacy
OpenAI to have one million GPUs online by the end of the year, CEO Sam Altman wants 100 million
Sam Altman says OpenAI will own ‘well over 1 million GPUs’ by the end …
Elon Musk says xAI will have 50 million ‘H100 equivalent’ Nvidia GPUs by 2030 – but at what cost?
Elon Musk says xAI is targeting 50 million ‘H100 equivalent’ AI GPUs in …
The General-Purpose AI Code of Practice | Shaping Europe’s digital future
Overview of the Code of Practice | EU Artificial Intelligence Act
Google to sign EU’s AI code of practice despite concerns
A week after Meta turned it down, Google agrees to sign EU’s AI Code of Practice while still raising its own concerns
European Union publishes its General-Purpose AI Code of Practice

Mojgan Farmahini

Tobias Carlsson

Vill du att vi hör av oss?

Please fill out