Machine vision applied to manufacturing with a focus on chip removal processes

Modern high-mix, low-volume machining lines still depend on labour-intensive vise ver ification, because state-of-the-art object detectors require thousands of annotated real images; acquiring them halts production and exposes operators to coolant and swarf. Consequently, this thesis asks the central scientific question: can non-photorealistic renderings produced directly from the shop’s CAD/CAM models replace most of that real data without compromising inspection accuracy? To investigate, we cast vise recognition as a domain-adaptation problem in which the visual shift between synthetic and shop-floor imagery is the principal obstacle. We hy pothesise that this shift can be expressed—and partially controlled—through a small set of rendering and training factors, and we design a factorial experiment that disentangles the influence of image resolution, dataset size and optimiser dynamics on the transferability of Transformer-based detectors. Our objectives are threefold: 1. Quantify the accuracy gap between a purely synthetic model and its real-image per formance; 2. Explain how controllable factors modulate that gap, thereby revealing where further research and engineering effort yield the greatest return; 3. Optimise the trade-off between data-generation cost and inspection reliability, en abling manufacturers— especially small and medium-sized enterprises—to adopt a render-first, label-later workflow and deploy AI inspection without multinational-level budgets. The resulting insights aim to guide computer-vision researchers towards more trans ferable synthetic datasets and to aid industrial engineers in developing cost-effective, safety-certifiable inspection systems that minimise machine downtime.

Le linee di lavorazione ad elevata varietà e basso volume dipendono ancora da una verifica manuale delle morse, dispendiosa in termini di manodopera, perché i rilevatori di oggetti allo stato dell’arte richiedono migliaia di immagini reali annotate; la loro acqui sizione impone di fermare la produzione ed espone gli operatori a refrigerante e trucioli. Di conseguenza, questa tesi pone la seguente domanda centrale: possono i rendering non fotorealistici, generati direttamente dai modelli CAD/CAM dell’officina, sostituire gran parte di questi dati reali senza compromettere l’accuratezza dell’ispezione? Per rispondere, il riconoscimento delle morse è inquadrato come un problema di adat tamento di dominio, in cui lo scarto visivo fra immagini sintetiche e riprese in officina costituisce l’ostacolo principale. Si ipotizza che tale scarto possa essere descritto—e in parte controllato—da un ristretto insieme di fattori legati al rendering e all’addestramento; pertanto, si progetta un esperimento che isola l’influenza di risoluzione dell’immagine, di mensione del dataset e dinamiche dell’ottimizzatore sulla trasferibilità di detector basati su Transformer. Gli obiettivi sono tre: 1. Quantificare il divario di accuratezza tra un modello addestrato esclusivamente su dati sintetici e le sue prestazioni su immagini reali; 2. Spiegare come i fattori controllabili modulino tale divario, evidenziando dove ulteriori ricerche e sforzi ingegneristici producano il massimo ritorno; 3. Ottimizzare il compromesso fra costo di generazione dei dati e affidabilità dell’ispezione, permettendo ai produttori—e in particolare alle piccole e medie imprese—di adottare un flusso render-first, label-later e implementare l’ispezione basata su IA senza budget da multinazionale. Le conoscenze ottenute mirano a guidare i ricercatori di visione artificiale verso dataset sintetici più trasferibili e a supportare gli ingegneri industriali nello sviluppo di sistemi di ispezione economici, certificabili in termini di sicurezza, che riducano al minimo i tempi di fermo macchina.