We use cookies to enhance your browsing experience, serve personalised ads or content, and analyse our traffic.
By clicking "I accept", you consent to our use of cookies.

FormEasy | Voice-based form filling for inclusive Web Navigation

ConWeb-FormFilling è un'architettura software che allarga ulteriormente le possibilità di un Web Conversazionale permettendo agli utenti di compilare form tramite voce.

FormEasy – Compilazione Vocale per Moduli Web Inclusivi

Il problema

Compilare moduli online è un passaggio imprescindibile per accedere a una vasta gamma di servizi: dai bonus comunali all’assistenza sanitaria, fino al customer care di aziende, banche, assicurazioni o operatori telefonici. Tuttavia, per molte persone questi moduli rappresentano un ostacolo.

Chi ha disabilità visive o cognitive, o semplicemente poca dimestichezza con la tecnologia – come molti anziani – si trova spesso escluso da questi servizi, data la difficoltà di interpretazione di questi elementi, che spesso risultano anche tecnicamente poco accessibili per le tecnologie assistive come gli screen readers. Anche situazioni temporanee (mani occupate, ambienti rumorosi, dispositivi con schermi piccoli) possono rendere l’interazione con i moduli web frustrante o molto difficile.

Contesto e collaborazioni

Questa esigenza è emersa chiaramente nel corso del lavoro svolto dal laboratorio universitario PoliMi HINT Lab (https://hintlab.polimi.it/), che da anni si occupa di accessibilità e interazione multimodale. Il progetto FormEasy nasce proprio da questa esperienza di ricerca applicata, ed è stato ulteriormente sviluppato grazie alla collaborazione con il Board Innovazione Tecnologica E Trasformazione Digitale del  Comune di Milano  e diverse associazioni che rappresentano persone con disabilità visive. Il nostro progetto si inserisce nell’ambito della digitalizzazione delle procedure amministrative per sperimentare paradigmi d’interazione alternativi e inclusivi.

Attraverso workshop, test sul campo e confronto con utenti reali, è stato possibile individuare i limiti dei moduli web attuali e progettare una soluzione realmente utile e inclusiva.

La soluzione: FormEasy

FormEasy è un assistente vocale intelligente, ispirato all’architettura modulare e dialogica di ConWeb/ad agenti. Basato su modelli di linguaggio avanzati (LLM) e organizzato come un sistema ad agenti, FormEasy guida l’utente nella compilazione di moduli web utilizzando esclusivamente la voce.

Il servizio comprende:

  • Comprensione contestuale dei moduli HTML e delle richieste specifiche dell’utente.
  • Navigazione vocale interattiva tra sezioni del modulo.
  • Compilazione naturale tramite linguaggio libero, con interpretazione semantica delle risposte.
  • Assistenza in tempo reale con chiarimenti, riepiloghi e correzioni.
  • Gestione del contesto, per portare l’utente dalla prima risposta fino all’invio del modulo.

Capabilities Tecnologiche

FormEasy sfrutta le potenzialità dei Large Language Models e di un’architettura ad agenti specializzati che collaborano per:

  • Estrarre automaticamente la struttura dei moduli web.
  • Riconoscere e gestire intenzioni complesse espresse in linguaggio naturale.
  • Coordinare diverse fasi del processo attraverso una logica conversazionale.
  • Migliorare l’esperienza utente grazie a feedback dinamico e personalizzato.

Obiettivi dell’Hackathon

Il prototipo attuale di FormEasy si basa sull’utilizzo di tecnologie OpenAI. Durante l’Hackathon, vogliamo ottimizzare il prototipo individuando e sfruttando al meglio tecnologie Microsoft/OpenAI in grado di favorire e migliorare:

  • La generalizzazione del paradigma corrente, per favorire l’interpretazione di moduli Web di natura diversa e che richiedono operazioni diverse da parte dell’utente (es. assistenza, rimborso, disdetta).
  • Gestione fluida del dialogo vocale con comandi flessibili.
  • Offerta di supporto vocale personalizzato, con gestione degli errori e feedback continuo.

 

English Version

FormEasy – Voice Filling for Inclusive Web Forms

The Problem

Filling out online forms is an essential step for accessing a wide range of services: from municipal bonuses to healthcare, customer service for companies, banks, insurance providers, or telecom operators. However, for many people, these forms are a real barrier.

Those with visual or cognitive impairments, or simply limited tech skills – such as many elderly individuals – often find themselves excluded from these services. This is due to the difficulty in interpreting these elements, which are often technically inaccessible to assistive technologies like screen readers. Even temporary situations (e.g. hands busy, noisy environments, small-screen devices) can make interacting with web forms frustrating or very difficult.

Context and Collaborations

This need clearly emerged through the work of the university lab PoliMi HINT Lab (https://hintlab.polimi.it/), which has focused on accessibility and multimodal interaction for years. The FormEasy project was born from this applied research and was further developed through collaborations with the Innovation Technology and Digital Transformation board of the Municipality of Milan and several associations representing people with visual impairments. Our project is part of the broader digitalization of administrative procedures and aims to explore alternative and inclusive interaction paradigms.

Through workshops, field tests, and feedback from real users, we identified the limits of current web forms and designed a truly useful and inclusive solution.

The Solution: FormEasy

FormEasy is an intelligent voice assistant inspired by the modular and dialog-based architecture of ConWeb/agent systems. Based on advanced language models (LLMs) and structured as a multi-agent system, FormEasy guides users through the completion of web forms using only their voice.

The service includes:

  • Contextual understanding of HTML forms and user-specific requests.
  • Interactive voice navigation through different sections of the form.
  • Natural input using free-form language, with semantic interpretation of responses.
  • Real-time assistance with clarifications, summaries, and corrections.
  • Context management to guide the user from the first input to form submission.

Technological Capabilities

FormEasy leverages the potential of Large Language Models and a specialized agent-based architecture that collaborates to:

  • Automatically extract the structure of web forms.
  • Recognize and manage complex Intents expressed in natural language.
  • Coordinate various phases of the process through a conversational logic.
  • Enhance the user experience through dynamic and personalized feedback.

Hackathon Objectives

The current FormEasy prototype is based on OpenAI technologies. During the Hackathon, we aim to optimize the prototype by identifying and leveraging Microsoft/OpenAI technologies to:

  • Generalize the current paradigm to interpret various types of web forms requiring different user actions (e.g. support, reimbursement, cancellation).
  • Ensure smooth voice dialogue with flexible commands.

Offer personalized voice support, including error handling and continuous feedback.

Repo: https://polimi365-my.sharepoint.com/:f:/g/personal/10525681_polimi_it/EqVvB92SIPZGgr2ed1z0UrkBBl8GG1djMnmXHIYn1gVtzA?e=BUHBaM

Video: https://polimi365-my.sharepoint.com/:v:/g/personal/10525681_polimi_it/EcOIPZ2Z-9xBm5XI3Cd5KqUBlp9VUr5T1Z_qjT9orqGtkA?e=mlWGHN