Séminaire IXXI
Représentations Continues et Accès à l'Information
Benjamin Piwowarski
Vendredi 11 juin
$\newcommand{\argmin}{\mathop{\textrm{argmin}}} \newcommand{\argmax}{\mathop{\textrm{argmax}}} \newcommand{\v}[2]{{#1}_{\mathrm{#2}}} \newcommand{\Exp}{\mathbb{E}} \newcommand{\Var}{V} \newcommand{qpr}{q} \newcommand{\Obs}{\mathcal{O}} \newcommand{\RR}{\mathbb{R}} \newcommand{\Data}{\mathbb{\mathcal{D}}} \newcommand{\matA}{\mathbf{A}} \newcommand{\matB}{\mathbf{B}} \newcommand{\matW}{\mathbf{W}} \newcommand{\matX}{\mathbf{X}} \newcommand{\matY}{\mathbf{Y}} \newcommand{\vx}{\mathbf{x}} \newcommand{\vy}{\mathbf{y}} \newcommand{\tr}{\mathop{\mathrm{tr}}} \newcommand{\crep}[3][]{\underline{#2}_{#3}^{#1}} \newcommand{\mat}[1]{\mathbf{#1}} \newcommand{\RV}{\mathbf{#1}} \newcommand{\RVX}{\mathbf{X}} \newcommand{\RVY}{\mathbf{X}} \newcommand{\RVY}{\mathbf{X}} \newcommand{\dpartial}[2]{\frac{\partial #1}{\partial #2}} \newcommand{\C}{\mathbb{C}} \def\rep#1{\underline{#1}} \def\entity{e}% \def\entities{\mathcal{E}}%$

Équipe MLIA (LIP6 - Sorbonne Université)

div MLIA : Machine Learning and Information Access

10 permanents

Thématiques

  1. Apprentissage de représentation et "deep learning"
  2. Données structurées
  3. Apprentissage par renforcement

Accès à l'information ?

Ensemble des technologies qui permettent d'accéder plus facilement à l'information digitale
  • Recherche Documentaire
  • Question-Réponse
  • Extraction d'Information
  • Résumé
  • Traduction
  • ...

Contexte : Apprentissage Automatique (Machine Learning)

Deux grandes familles :
  1. Les approches logiques
    Le chat est sur le toit
    est-sur(le chat, le toit)
    Interprétation et inférence
    (trop) Sensible au bruit
    Modélisation fine
  2. Les approches basées sur l'apprentissage statistique
    Le chat est sur le toit
    (1.2 3.1 -1.2 .... 5.3) $\in \RR^n$
    Peu sensible au bruit
    Modèles génériques et multimodaux
    Interprétation et inférence
Dans cet exposé, on se place dans le cadre de l'apprentissage statistique

Contexte : Réseaux de neurones

Plus précisément, on se place dans le cadre des réseaux de neurones

Un "neurone artificiel"
C'est un hyperplan séparateur dans $\mathbb \RR^n$ défini par $x\in \RR^n$ et $b\in\RR$
Pour un exemple $y$, le neurone est actif positivement si $x \cdot y + b > 0$ et négativement si $x \cdot y + b < 0$.

Plan de l'exposé

  1. Évolution de la représentation : vers des représentations continues
  2. Représentation continue des mots
  3. Réseaux de neurones et language
  4. Mémoire et Transformers

Vers des représentations continues en accès à l'information

Modèles (1960-2000)

  • Modélisation mathématiques (heuristiques ou probabilistes)
  • Représentations faites à la main (explicites ou implicites)
Recherche d'Information
Estimation de la pertinence d'un document $d$ pour une question $q$
Modèle Vectoriel
$$\textrm{pertinence}_{VSM}(\mbox{question } q, \mbox{document } d ) = \cos\left( \rep{q}, \rep{d} \right) $$
Avec $\rep q$ et $\rep d$ des vecteurs dans $\RR^V$ où $q_i>0$ ($d_i>0$) si le mot $i$ appartient à la question (document)
Modèle Probabiliste
$$ \begin{eqnarray} \textrm{pertinence}_{BM25} & = & \log p(\mbox{pertinent }R | \mbox{question } q, \mbox{document } d)\\ & \stackrel{rang}= & \sum_{t\in q} \log \frac{p(t|R,d)}{p(t|\neg R,d)} \end{eqnarray} $$
avec $p(t|R,d)$ = probabilité que le terme $t$ apparaisse dans une question pour lequel le document $d$ est pertinent
Formalisation
Modélisation partielle du phénomène observé

Apprentissage Statistique (1990-2010)

  • Représentation = combinaison de modèles
  • Apprentissage Automatique (Machine learning)
Recherche d'Information
Fuhr, N. and Buckley, C.
1991. A Probabilistic Learning Approach for Document Indexing.
$$\log p(\mbox{pertinent} | \mbox{document}, \mbox{question}; \theta) = \sum_{i=1}^N {\color{blue}\theta_i} {\color{green}\Phi_i(q,d)} $$
Exemples de $\Phi_i(d,q)$:
  • $\textrm{pertinence}_{BM25} (q,d)$
  • Pagerank (importance dans le graphe) de $d$
  • Longueur du document $d$
  • ...
Le but est d'apprendre automatiquement ${\color{blue}\theta_i}$
Cela a donné lieu à beaucoup de travaux de recherche en apprentissage d'ordonnancements
Liu, T.-Y.
2011. Learning to Rank for Information Retrieval.
Amélioration des performances...
... toujours limitée par la représentation inadéquate

Apprentissage de représentations (2010-...)

  • Représentation apprise : tout object peut être représenté dans un espace continu $\RR^n$
  • On utilise toujours des algorithmes d'apprentissage statistique
Recherche d'Information
$$p(\mbox{pertinent }R | \mbox{question } q, \mbox{document } d) = rsv_\theta \left( \rep{q}, \rep{d} \right) $$
où $$\rep q = f_\theta(q) \mbox{ et } \rep d = g_\theta(d)$$ sont des représentations apprises de la question et du document
Changement du problème de recherche
Comment apprendre de bonnes représentations textuelles ? Comment les utiliser ?

Représentations continues de mots

Limite du sac de mots

Similarité des phrases
$\langle$ "le véhicule bleu", "le camion bleu" $\rangle = 2$
$\langle$ "le véhicule bleu", "le bâtiment bleu" $\rangle = 2$
Le problème = pas de sémantique...

Construire des espaces sémantiques abstraits

Une solution
  1. Exploiter les régularités
  2. Représentation dans un espace vectoriel $\mathbb{R}^n$
Importance du contexte
Le garçon est allé...
  • chez le dentiste
  • à l'école
  • sur la lune
  • ...

Solution : Graphe des co-occurrences

Dans la pratique, plus simple = co-occurrences de mots

Apprendre des représentations de mots : Word2Vec

Objectif: maximiser la probabilité que $\color{blue} e$ apparaisse dans le contexte $\color{green} c$ (ou non pour $\color{red} n$), avec $\sigma(x)=(1+\exp(-x))^{-1}$

Apprentissage des mots

$$ \mathcal L = - \log(\underbrace{\sigma(x_{t} \cdot y_{c})}_{P(t \mathrm{\ dans\ le\ contexte\ } c)}) - \sum_{k=1}^N \log(\underbrace{\sigma(- x_{t} \cdot y_{n_k})}_{P(t \mathrm{\ pas\ dans\ le\ contexte\ } n_k)})$$

Solution : espaces vectoriels

Représentation
$$\mathrm{chat} = (\underbrace{-0.15, -0.02, -0.23, -0.23, -0.18, \ldots}_{n\ \mathrm{nombres\ r\acute{e}els}})$$
$$\mathrm{chien} = (\underbrace{-0.40, 0.37, 0.02, -0.34, 0.05, \ldots }_{n\ \mathrm{nombres\ r\acute{e}els}})$$
$$\mathrm{ordinateur} = (\underbrace{-0.27, -0.14, 0.23, -0.26, 0.09, \ldots}_{n\ \mathrm{nombres\ r\acute{e}els}})$$
Similarité
$$s(\mathrm{chat},\mathrm{chien}) = (-0.15\times -0.40) + (-0.02\times 0.37) + (-0.23\times -0.02) + \cdots = 0.8$$
$$s(\mathrm{chat},\mathrm{ordinateur}) = (-0.15\times -0.27) + (-0.02\times -0.14) + (-0.23\times 0.23) + \cdots = 0.25$$

Espaces de représentation: similarités

Espaces de représentation: relations

Transformation = Relation
Une transformation géométrique correspond à une relation sémantique
Exemple
$$\v{x}{man} = \v{x}{woman} + \v{t}{womanhood}$$
$$\v{x}{uncle} = \v{x}{aunt} + \v{t}{womanhood}$$
$$\ldots$$

Word Grounding: Exploiting Context

Zablocki, É. et al.
2018. Learning Multi-Modal Word Representation Grounded in Visual Context. Proceedings of the Association for the Advancement of Artificial Intelligence.
image/svg+xml