
Meta ogłosiła DINOv3 — rodzinę modeli widzenia komputerowego, które uczą się patrzeć na świat… bez żadnych opisów czy podpisów pod zdjęciami. Zamiast klasycznego „naucz mnie na tysiącach podpisanych przykładów”, DINOv3 sam wyciąga reguły z miliardów nieopisanych obrazów, a potem działa jako uniwersalny, „zamrożony” kręgosłup dla wielu zadań naraz: od rozpoznawania obiektów, przez segmentację, po szacowanie głębi. Efekt jest zaskakująco dobry – w testach model potrafi dogonić albo przegonić wyspecjalizowane systemy szyte pod pojedyncze zadania.
Trening bez etykietowania?
Na czym polega przełom? Do tej pory modele wizyjne zazwyczaj uczyły się „pod dyktando” – z pomocą ludzi, którzy opisywali zdjęcia. DINOv3 działa inaczej: dostaje wiele przyciętych czy przekształconych widoków tej samej sceny i uczy się, by reprezentacje tych widoków były zgodne. Taki samouczący się trening skaluje się znakomicie, bo nie wymaga kosztownego znakowania danych, a wypracowane cechy są na tyle ogólne, że można je od razu podłączyć do prostych „nakładek” dla różnych zadań — bez ponownego żmudnego strojenia całego modelu.
DINOv3 to też skala i inżynieria. Największy wariant ma około 6,7 miliarda parametrów, a same wagi i gotowe modele są dostępne na Hugging Face — przy czym dostęp wymaga zaakceptowania licencji Meta. Co ważne, pre-trening wykonano na starannie przygotowanym zbiorze około 1,689 miliarda zdjęć wyłuskanych z puli mniej więcej 17 miliardów publicznych postów na Instagramie. Innymi słowy: nie chodzi tylko o „więcej danych”, lecz o lepszy dobór i porządkowanie tego, co trafia do modelu.
Żeby to wszystko działało na „gęstych” zadaniach — gdzie liczy się każdy piksel, jak w segmentacji — zespół Meta dodał nowy składnik treningu: Gram anchoring. To technika, która stabilizuje lokalne cechy obrazu podczas bardzo długich treningów, gdy zwykle zaczynają się one „rozmywać”. Zamiast pilnować każdej cechy z osobna, porównuje się ich wzajemne podobieństwa (tak zwane macierze Grama) między uczniem a wcześniejszą, stabilną wersją nauczyciela. W praktyce przywraca to ostrość detali bez psucia uogólnienia na poziomie całego obrazu.
Co to oznacza w praktyce?
Mniej „magii”, więcej solidnej inżynierii, która ułatwia życie wszystkim: firmy mogą szybciej wdrażać systemy wizyjne bez kosztów ręcznego opisywania danych; naukowcy zyskują model, który radzi sobie z nietypowymi danymi; a produkty konsumenckie – jak wyszukiwanie zdjęć czy narzędzia edycyjne – mogą stać się dokładniejsze i bardziej odporne na „dziwne przypadki”. Jeśli trend się utrzyma, DINOv3 stanie się podstawą, na której buduje się całe stosy rozwiązań, zamiast mnożyć odrębne modele do każdego zadania.
Bibliografia:
- DINOv3 — publikacja na arXiv: https://arxiv.org/abs/2508.10104
- Model DINOv3 ViT-7B — karta na Hugging Face (szczegóły danych i licencji): https://huggingface.co/facebook/dinov3-vit7b16-pretrain-lvd1689m
- Omówienie techniczne i kontekst „Gram anchoring”: https://encord.com/blog/dinov3-explained-scaling-self-supervised-vision-tr/
- Relacja z ogłoszenia i tło medialne: https://www.marktechpost.com/2025/08/14/meta-ai-just-released-dinov3-a-state-of-the-art-computer-vision-model-trained-with-self-supervised-learning-generating-high-resolution-image-features