In the rapidly evolving domain of streaming platforms, the richness and complexity of content catalogs present both opportunities and challenges for advanced search technologies. The diversity in genre, style, and language, mirrors the content's origins and the platforms' global reach, enhancing user experience, but complicating content discoverability. This scenario sets the stage for our investigation into enhancing content discovery through innovative search methodologies. Our work introduces a novel system implementing a hybrid search mechanism. This approach combines the precision of keyword search with the depth of semantic understanding, offering a more human-like search experience where users can input queries as if conversing with another person. At the heart of our system is a custom embedding model, trained to capture the semantic nuances of user queries and retrieve content that not only matches the keywords but also aligns with the query's underlying intent. The development of our system is based on fine-tuning approach, allowing us to adapt and enhance the capabilities of an existing open-source embedding model for our specific use case. This methodology ensures our model's effectiveness in understanding and processing queries across a broad spectrum of languages, addressing the multilingual needs of global streaming platforms and their diverse user base. Structured as an online service, our solution is designed for easy integration by any streaming company, offering a scalable and adaptable tool to improve content discovery. Through this system, we aim to redefine user interaction with streaming platforms, enabling searches that are more intuitive, efficient, and responsive to the varied ways in which people communicate their content preferences.

Nel dominio in rapida evoluzione delle piattaforme di streaming, la ricchezza e la complessità dei cataloghi di contenuti presentano sia opportunità che sfide per le avanzate tecnologie di ricerca. La diversità di genere, stile e linguaggio, che riflette le origini dei contenuti e la portata globale delle piattaforme, migliora l'esperienza dell'utente ma complica la scoperta dei contenuti. Questo scenario pone le basi per la nostra ricerca sul miglioramento della scoperta dei contenuti attraverso metodologie di ricerca innovative. Il nostro lavoro introduce un nuovo sistema che implementa un meccanismo di ricerca ibrido. Questo approccio combina la precisione della ricerca per parole chiave con la profondità della comprensione semantica, offrendo un'esperienza di ricerca più simile a quella umana, in cui gli utenti possono inserire le domande come se stessero conversando con un'altra persona. Il cuore del nostro sistema è un modello di embedding personalizzato, addestrato per catturare le sfumature semantiche delle domande degli utenti e recuperare i contenuti che non solo contengono le parole chiave, ma sono anche in linea con l'intento della domanda. Lo sviluppo del nostro sistema si basa su un approccio di fine-tuning, che ci permette di adattare e migliorare le capacità di un modello esistente e open-source che genera embedding per il nostro caso d'uso specifico. Questa metodologia garantisce l'efficacia del nostro modello nella comprensione e nell'elaborazione di domande in un ampio spettro di lingue, rispondendo alle esigenze multilingua delle piattaforme di streaming globali e della loro variegata base di utenti. Strutturata per essere un servizio online, la nostra soluzione è progettata per essere facilmente integrata da qualsiasi società di streaming, offrendo uno strumento scalabile e adattabile per migliorare la scoperta dei contenuti. Attraverso questo sistema, ci proponiamo di ridefinire l'interazione degli utenti con le piattaforme di streaming, consentendo ricerche più intuitive, efficienti e reattive ai diversi modi in cui le persone comunicano le loro preferenze in fatto di contenuti.

Integrating semantic and keyword search: a transformer-based approach for content discovery

Martellozzo, Sofia
2023/2024

Abstract

In the rapidly evolving domain of streaming platforms, the richness and complexity of content catalogs present both opportunities and challenges for advanced search technologies. The diversity in genre, style, and language, mirrors the content's origins and the platforms' global reach, enhancing user experience, but complicating content discoverability. This scenario sets the stage for our investigation into enhancing content discovery through innovative search methodologies. Our work introduces a novel system implementing a hybrid search mechanism. This approach combines the precision of keyword search with the depth of semantic understanding, offering a more human-like search experience where users can input queries as if conversing with another person. At the heart of our system is a custom embedding model, trained to capture the semantic nuances of user queries and retrieve content that not only matches the keywords but also aligns with the query's underlying intent. The development of our system is based on fine-tuning approach, allowing us to adapt and enhance the capabilities of an existing open-source embedding model for our specific use case. This methodology ensures our model's effectiveness in understanding and processing queries across a broad spectrum of languages, addressing the multilingual needs of global streaming platforms and their diverse user base. Structured as an online service, our solution is designed for easy integration by any streaming company, offering a scalable and adaptable tool to improve content discovery. Through this system, we aim to redefine user interaction with streaming platforms, enabling searches that are more intuitive, efficient, and responsive to the varied ways in which people communicate their content preferences.
BIONDI, RICCARDO
SALLEMI, FEDERICO
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2023/2024
Nel dominio in rapida evoluzione delle piattaforme di streaming, la ricchezza e la complessità dei cataloghi di contenuti presentano sia opportunità che sfide per le avanzate tecnologie di ricerca. La diversità di genere, stile e linguaggio, che riflette le origini dei contenuti e la portata globale delle piattaforme, migliora l'esperienza dell'utente ma complica la scoperta dei contenuti. Questo scenario pone le basi per la nostra ricerca sul miglioramento della scoperta dei contenuti attraverso metodologie di ricerca innovative. Il nostro lavoro introduce un nuovo sistema che implementa un meccanismo di ricerca ibrido. Questo approccio combina la precisione della ricerca per parole chiave con la profondità della comprensione semantica, offrendo un'esperienza di ricerca più simile a quella umana, in cui gli utenti possono inserire le domande come se stessero conversando con un'altra persona. Il cuore del nostro sistema è un modello di embedding personalizzato, addestrato per catturare le sfumature semantiche delle domande degli utenti e recuperare i contenuti che non solo contengono le parole chiave, ma sono anche in linea con l'intento della domanda. Lo sviluppo del nostro sistema si basa su un approccio di fine-tuning, che ci permette di adattare e migliorare le capacità di un modello esistente e open-source che genera embedding per il nostro caso d'uso specifico. Questa metodologia garantisce l'efficacia del nostro modello nella comprensione e nell'elaborazione di domande in un ampio spettro di lingue, rispondendo alle esigenze multilingua delle piattaforme di streaming globali e della loro variegata base di utenti. Strutturata per essere un servizio online, la nostra soluzione è progettata per essere facilmente integrata da qualsiasi società di streaming, offrendo uno strumento scalabile e adattabile per migliorare la scoperta dei contenuti. Attraverso questo sistema, ci proponiamo di ridefinire l'interazione degli utenti con le piattaforme di streaming, consentendo ricerche più intuitive, efficienti e reattive ai diversi modi in cui le persone comunicano le loro preferenze in fatto di contenuti.
File allegati
File Dimensione Formato  
2024_04_Martellozzo_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Testo Executive Summary
Dimensione 1.58 MB
Formato Adobe PDF
1.58 MB Adobe PDF Visualizza/Apri
2024_04_Martellozzo_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: Testo Tesi
Dimensione 28.49 MB
Formato Adobe PDF
28.49 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219787