Mojgan och Tobias har med sina finkänsliga spröt fångat upp allt relevant inom AI senaste månaden och skapat denna fantastiska sammanställning.
När vi blickar tillbaka är det slående hur snabbt utvecklingen har gått. På bara några veckor fick vi:
- Nya modeller: Anthropic lanserade Claude Opus 4, Google släppte Gemini 2.5 Flash och Pro, och Kina gav oss en ny version av DeepSeek – alla modeller med kraftigt förbättrad prestanda.
- AI integrerat i vardagstjänster: Chrome fick en inbyggd AI-assistent, Google Drive kan nu analysera videor automatiskt, och Volvo visade upp den första bilmodellen med en inbyggd AI-motor.
- Kraftfull forskning: Transformer-baserade system slog sig fram i medicinsk bildanalys med mycket högre noggrannhet än tidigare.
- Lagstiftning i rörelse: Viktiga utfrågningar hölls i USA om att skydda AI-innovationer, och EU spikade nya regler för AI i akademiska sammanhang.
Kort sagt: maj 2025 var den månad då AI verkligen klev ur laboratoriet och in i våra datorer, mobiltelefoner och bilar.
1. Claude Opus 4 – Anthropic tar utvecklarvärlden med storm
Varför bry sig om Claude Opus 4?
Tänk dig en AI som kan hänga med genom ett helt kodprojekt på flera tusen rader, utan att tappa kontext. Det är precis det som Anthropic levererar med sin nya flaggskeppsmodell Claude Opus 4, vilken lanserades i mitten av maj.
Extremt långt minne: Opus 4 klarar 200 000 in-tokens och kan generera 32 000 ut-tokens i ett enda svar. Du kan klistra in hela designdokument och låta modellen bearbeta dem i ett svep.
- “Extended thinking”-läge: När du begär det kan modellen lägga extra beräkningskraft på att resonera djupare innan den svarar. Därefter får du en kort sammanfattning (“thought summary”) av hur den kom fram till resultatet.
- Minneshantering via filer: Opus 4 skapar och uppdaterar lokala “memory files” som behåller viktig information över flera timmar av arbete. Perfekt om du vill att AI:n ska kunna hålla tråden genom längre pass av utvecklingsarbete eller komplexa tester.
- Verkligt autonoma flöden: Genom Anthropic-API:ets Model Context Protocol (MCP) kan modellen själv starta terminalkommando, öppna webbläsare eller externa verktyg under en session – vilket banar väg för helt AI-styrda CI/CD-pipelines.
- Kostnadsbesparingar: Tack vare “prompt caching” kan man minska kostnaden för återkommande anrop med upp till 90 %, och med batch-körning halveras token-kostnaden vid större jobb.
Imponerande tester i verkligheten
I branschspråkets benchmark (SWE-bench) uppnådde Opus 4 72,5 % – imponerande och långt före GPT-4.1:s 54,6 %. Än mer slående är att Opus 4 lyckades arbeta helt självständigt i upp till sju timmar utan märkbara kvalitetsdippar. Ett exempel: japanska Rakuten använde modellen för att automatisera en komplett kodrefaktorering – från början till slut – utan mänsklig inblandning.
När är det rätt läge att välja Opus 4?
- När du har stora kodbaser eller dokument på flera hundra sidor och vill hålla ihop konversationen i ett enda flöde.
- När du behöver total spårbarhet och transparens – thought summaries blir dina bevis på hur AI:n resonerade.
- När du bygger långvariga AI-agentflöden (till exempel automatiska pull requests eller felsökningsassistenter).
Om du däremot bara behöver snabba korta textsammanfattningar kan en lättare modell räcka, men för riktigt tunga och ihållande uppgifter är Opus 4 svårslagen.
2. Gemini 2.5 Flash & Pro – Googles svar på framtidens AI
Gemini 2.5 Flash – snabbhet och ekonomi i ett paket
Den 20 maj lanserade Google Gemini 2.5 Flash, en modell som är 20–30 % mer token-effektiv än föregångaren men når nästan Pro-nivå i benchmark (ELO-score 1418 Chatbot Arena ). Höjdpunkter:
- Lågt pris per svar: Språktolkningar och generella chattfunktioner med låg latens.
- Native Audio Output: Inbyggd Text-to-Speech (TTS) och röststyrning med olika accenter och tonläge, för både “Affective Dialogue” (känslostyrd dialog) och “Proactive Audio” (förslag från AI:n när den märker att du är osäker).
- Stöd för upp till 1 000 000 in-tokens: Flash kan hantera extremt stora textmassor utan att tappa tråden.
- Thinking Budgets: Du kan nu själv bestämma hur mycket du är villig att betala per svar, vilket ger full kontroll över kostnaderna.
När passar Flash bäst?
- Om du vill ha AI-chatt i realtid, till exempel en kundsupport-chatbot med snabb svarstid.
- När du i mobil- eller webbläsar-appar vill låta flera användare ställa frågor samtidigt utan att tokenkostnaden skenar iväg.
- Om du vill integrera enkel röststyrning i befintliga appar utan att behöva skaffa extern TTS-lösning.
Flash finns sedan slutet av maj i förhandsvisning i Gemini-appen, Google AI Studio och Vertex AI. Allmän release sker i början av juni.
Gemini 2.5 Pro – djupare resonemang med “Deep Think”
Samma dag presenterade Google också Gemini 2.5 Pro, med fokus på högre precision genom ett experimentellt “Deep Think”-läge:
- Deep Think: AI:n provar flera hypoteser internt innan den ger sitt svar. Perfekt för komplexa matematikuppgifter (49,4 % poäng på USAMO 2025) och avancerad kodanalys (topplacering på LiveCodeBench).
- Multimodala indata: Kan hantera text, bilder och video i samma konversation och ändå bevara kontext.
- Stöd för upp till 1 048 576 in-tokens och 65 536 ut-tokens: Behåll sammanhang i extremt långa textflöden – till exempel en hel videomanusmanual med tillhörande bildreferenser.
- Thought Summaries & Thinking Budgets: Full transparens kring hur långt AI:n “tänker” och vad det kostar i tokens, komplett med dokumenterade resonemang.
Pro är i förhandsvisning för “betrodda testare” just nu, men släpps till alla senare under året. För dig som behöver en AI som verkligen “tänker efter” innan den svarar är Pro valet att hålla koll på.
3. DeepSeek-R1-0528 – Förbättrad modell från Kina
DeepSeek-R1-0528 är den senaste uppdateringen av den kinesiska AI-startupen DeepSeeks “reasoning”-modell. Den släpptes 28:e maj 2025. Modellen är utformad för att konkurrera med ledande västerländska AI-modeller som OpenAI:s o3 och Googles Gemini 2.5 Pro – särskilt inom områden som matematik, programmering och logiska resonemang.
Vad är DeepSeek-R1-0528?
DeepSeek-R1-0528 är en avancerad språkmodell med fokus på logiskt resonemang och problemlösning. Den bygger vidare på den tidigare R1-modellen och har signifikant förbättrad prestanda inom flera områden.
- Förbättrad matematisk och logisk förmåga: Modellen visar ökad prestanda inom komplexa matematiska problem och uppgifter som kräver logiska resonemang.
- Minskad hallucination: Genom förbättrade träningsmetoder har modellen minskat förekomsten av felaktiga eller påhittade svar vilket ökar dess tillförlitlighet.
- Effektiv arkitektur: Med en “Mixture of Experts” (MoE) arkitektur på 671 miljarder parametrar aktiveras endast 37 miljarder vid varje beräkning, vilket bl.a. minskar kravet på minnestorlek utan försämrad prestanda.
- Öppen källkod: Modellen är tillgänglig under MIT-licens via plattformen Hugging Face, vilket möjliggör fri användning och anpassning för olika ändamål.
Hur presterar DeepSeek-R1-0528 jämfört med andra modeller?
Benchmark-tester visar att DeepSeek-R1-0528 presterar på en nivå något under OpenAI:s o3-modell och Googles Gemini 2.5 Pro men överträffar många andra modeller. Den har också visat starka resultat i matematik- och programmeringstester, vilket gör den till ett kraftfullt verktyg för utvecklare och forskare. Den är idag den överlägset bästa öppna modellen på marknaden.
Varför är DeepSeek-R1-0528 viktig?
DeepSeek-R1-0528 representerar ett betydande steg framåt för Kinas AI-utveckling. Genom att erbjuda en högpresterande, kostnadseffektiv och öppen modell utmanar DeepSeek de etablerade västerländska AI-företagen och visar att avancerad AI-teknik kan utvecklas och distribueras effektivt även med begränsade resurser.
4. AI tar över webbläsaren, molnet – och till och med bilen
AI i Chrome: Dina favoritwebbplatser blir intelligentare
Under maj började Google rulla ut Gemini-integration i Chrome (Beta/Dev/Canary) för användare med Google AI Pro eller AI Ultra:
- Sammanfatta artiklar utan att lämna fliken – klicka på Gemini-ikonen så får du en snabb överblick av halva nyhetssidan eller det där långa blogginlägget som intresserar dig.
- Identifiera objekt i videor: Perfekt när du studerar tutorials eller e-learning–klipp – AI:n talar om vilka verktyg den ser på skärmen.
- Extrahera recept eller kodsnuttar från olika webbplatser med ett knapptryck.
- Få produktrekommendationer när du klickar runt på e-handelssidor.
- Live-röstinteraktion: Tala direkt med AI:n, be den ändra språk eller be om fler detaljer utan att skriva ett enda tecken.
Överlag är Gemini i Chrome en tidig fingervisning om hur vi inom kort kan tänka oss att ha en AI-agent som bottnar i våra webbläsarsessioner – en “webbagent” som kan fixa rutinuppgifter åt oss medan vi kan fokusera på det kreativa.
Videoanalys i Google Drive: Snabb överblick på inspelade möten
I slutet av maj lanserade Google en uppdatering som låter Gemini analysera video-filer i Google Drive och leverera korta, textbaserade sammanfattningar:
- Automatiska sammanfattningar: Du behöver inte längre se hela presentationen – få sammanfattningen i ett par meningar.
- Action items i punktform: Här är de viktigaste punkterna eller uppgifterna du måste följa upp.
- Interaktiv Q&A: Ställ frågor som “Vilka beslut fattades under GDPR-avsnittet?” och få svar på stört.
Problemet med långa, inspelade kundmöten eller tutorials är att de tar tid att konsumera. Den här nya funktionen gör att man snabbt kan filtrera det väsentliga och fokusera på det som man faktiskt behöver. Resultatet visas i en overlay i Drive eller i ett nytt fönster, och du ser också hur många gånger videon spelats – perfekt för uppföljning och mätning av engagemang.
Volvo EX90 – världens första bil med inbyggd Gemini
I maj kunde vi läsa om Volvo EX90, den första produktionsbilen som har fullständigt integrerad Gemini. Det här är inte bara en PR-trick; det är en föraning om hur AI kan bli en integrerad del av framtidens fordon:
- Naturlig språkstyrning i bilen: Säg “Visa närmaste laddstation nära ett café med toppbetyg” i stället för att pilla på pekskärmen.
- Realtidsöversättning av röstkommandon: Söker du bensin på ett språk du inte pratar? Ingen fara – bilen översätter åt dig direkt.
- Tekniska frågor om fordonet: “Hur byter jag ett däck?” eller “Vad är optimalt däcktryck för vinterkörning?” – AI:n svarar med steg-för-steg-instruktioner.
- Proaktiva påminnelser: Skapa en inköpslista, kolla kalendern eller boka service – allt handsfree, vilket ökar både bekvämlighet och säkerhet.
Volvo EX90 uppgraderas till Android 15 senare under året och blir referensplattform för Android Automotive. Det innebär att Volvos kunder ligger först i kön när Google rullar ut nya AI-funktioner för fordon, med syfte att minska distraktioner och höja säkerheten på vägarna.
5. Regulatoriska initiativ: vad vi alla behöver veta
USA: AI-hemligheter i kongressen
I mitten av maj hölls en utfrågning i den amerikanska kongressen om att skydda nationella AI-hemligheter. Diskussionen kretsade kring:
- Hur förhindrar vi att konkurrenter eller utländska aktörer stjäl våra algoritmer?
- Var går gränsen för reverse engineering?
- Hur hanterar vi upphovsrättsskyddat material som har använts vid träning av LLM:er?
Resultatet blev att vi inom kort kan förvänta oss striktare riktlinjer för hur modeller och data får användas, vilket kommer påverka både forskare och utvecklare.
EU: Skärpta krav för AI i utbildningssammanhang
I slutet av maj röstade Europaparlamentet igenom nya riktlinjer för AI-system som används inom utbildning och bedömning:
- Algoritmgranskning krävs innan en AI-modell får användas för studentbedömningar, för att undvika bias och orättvisa bedömningar.
- Transparenskrav innebär att både studenter och lärare ska kunna se hur AI:n fattar sina beslut, för att säkerställa rättvisa och undvika fusk.
- AI Act-paketet inför 2026 blir ännu tydligare om hur verktyg för akademiskt stöd får utvecklas och användas.
EU vill att europeisk AI-teknik ska ha en hög etik- och säkerhetsnivå redan från början, för att göra det enklare att exportera lösningar utanför unionen.
6. Forskningsgenombrott & teknologiska språng
VEO 3: AI-video i hyperrealism
Den 29 maj presenterade Google VEO 3, en plattform som genererar hyperrealistiska videosekvenser av människor, komplett med naturligt ljud och bakgrundsmusik. En demo visade ett helt AI-genererat nyhetsprogram, med experter som diskuterade komplicerade ämnen utan en enda riktig person framför kameran.
- Möjlig användning: Föreställ dig att företag kan producera instruktionsvideos, reklamfilmer eller utbildningsmaterial helt AI-genererat, utan kostsamma inspelningar.
- Risk för desinformation: Samtidigt måste vi börja fundera på hur vi autentiserar innehåll – hur vet vi att videon vi just såg inte var 100 % syntetisk?
Det här är ett tydligt exempel på hur snabbt AI nu går från textgenerering till multimedial produktion.
Microsoft & OpenAI: AI-funktioner i Windows 11
Under maj lanserade Microsoft en uppdatering där OpenAI-teknik integrerades direkt i flera standardappar i Windows 11:
- Copilot GPT i Word: Skriv en kort instruktion, till exempel “Skriv en introduktion om förnybar energi”, och få ett helt stycke färdigt direkt.
- Data Insights Assistant i Excel: Ladda in en tabell, så skapar AI:n diagram, analyserar trender och förklarar data.
- Edge + GPT: Få smarta sökförslag och sammanfattningar direkt i webbläsaren utan att installera något extra.
Det här innebär att vanliga användare – såväl affärsanvändare som studenter – snart kommer kunna jobba betydligt snabbare och mer precist utan att lämna sina favoritprogram.
AI i medicinsk bildanalys: Räddade liv innan sommaren ens har börjat
Flera forskarlag visade i slutet av maj hur transformer-baserade AI-nätverk tar medicinsk bilddiagnostik till en ny nivå:
- MIT: MedVision GPT förbättrade lungcancer-screening med över 15 % i noggrannhet jämfört med tidigare metoder.
- Karolinska Institutet (i europeiskt samarbete): En AI-modell som analyserar MR-bilder av hjärtat och upptäcker tidiga tecken på hjärtsjukdom med 92 % träffsäkerhet (motsvarande radiologer uppnår cirka 85 %).
Det här är inga marginella förbättringar – det betyder snabbare diagnoser, bättre patientprioriteringar och i förlängningen räddade liv.
7. Industriella satsningar med AI-inriktning
AI i byggbranschen: Skalbara verktyg för projektstyrning
Under maj visade start-ups som Scalera hur AI kan revolutionera byggprojektledning:
- Helhetslösningar för leverantörskedjan: Från att automatiskt ansöka om arbetstillstånd till att följa leveranstider.
- Prognoser för förseningar: Baserat på historiska data och väderprognoser kan modellen förutse risker och föreslå åtgärder tidigt.
En större kanadensisk byggkoncern rapporterade redan 12 % färre förseningar när de använde Scalera. Det är tydligt att AI nu börjar bli standard i en bransch där marginella förbättringar kan spara miljontals kronor.
Meta & militär AI: Fältet nästa front
I maj presenterade Meta sitt nya chip EdgeAI X1, optimerat för generativ AI direkt i edge-enheter. Den mer uppseendeväckande nyheten var dock samarbetet med startupen Anduril för att utveckla EagleEye-hjälmen för USA:s militär:
- Förbättrad situationsmedvetenhet: Realtidsdata om omgivningen, hotidentifiering och navigationshjälp visas direkt i hjälmen.
- Beslutsstöd i fält: Automatisk målidentifiering och kommunikation med kommandocentralen.
Det här väcker stora etiska frågor om AI i krig, men visar också hur tekniken sprider sig från riktiga konsumentmarknader till kritiska försvarsapplikationer.