LongNet, la nouvelle prouesse de Microsoft qui pourrait déjà redéfinir l'IA
By
IAdvisor
July 20, 2023
Microsoft, dans une avancée significative de l'apprentissage automatique, a développé un nouveau modèle appelé LongNet capable de comprendre et d'analyser des séquences de texte extrêmement longues, allant jusqu'à 1 milliard de mots ou de phrases, appelés "tokens". Pour vous donner une idée de l'ampleur de cette prouesse, 1 milliard de mots équivaut à environ 10 000 à 20 000 romans, soit environ un quart de l'ensemble de Wikipédia en anglais.

Jusqu'à présent, il était difficile de traiter de telles longues séquences de texte de manière efficace tout en conservant la capacité du modèle à comprendre et à générer des résultats significatifs. Les méthodes existantes, bien qu'efficaces, ont leurs limites. Elles peinent soit avec la quantité astronomique de calculs nécessaires pour traiter de telles longues séquences de texte, soit avec la capacité du modèle à comprendre et à générer des résultats significatifs lorsqu'il est confronté à de telles longues séquences.

LongNet introduit une nouvelle technique appelée "attention dilatée". En termes simples, cela signifie que lorsque la distance entre les différentes parties de la séquence de texte s'accroît, l'attention que le modèle porte à ces parties s'étend de manière exponentielle. Cela permet à LongNet de traiter des séquences de texte extrêmement longues sans sacrifier ses performances sur des séquences plus courtes.

Les principaux avantages de LongNet sont :

  1. Il a une complexité de calcul linéaire, ce qui signifie que lorsque la quantité de données textuelles augmente, les calculs nécessaires pour traiter ces données augmentent à un rythme constant, et non exponentiel. Cela rend LongNet beaucoup plus efficace que les méthodes précédentes.
  2. Il peut fonctionner comme un formateur distribué pour des séquences extrêmement longues. Cela signifie que la tâche d'analyser la longue séquence de texte peut être répartie entre différentes parties d'un réseau ou d'un système, rendant le processus plus rapide et plus efficace.
  3. L'attention dilatée peut être facilement intégrée aux méthodes existantes d'optimisation des modèles basés sur Transformer, ce qui en fait un outil polyvalent pour les experts en apprentissage automatique.

L'équipe de recherche de Microsoft a testé LongNet et a constaté qu'il fonctionne bien à la fois sur des tâches impliquant de longues séquences de texte et sur des tâches de langage général. Cela ouvre un monde de possibilités pour le traitement et la compréhension de séquences de texte extrêmement longues comme une collection entière de livres ou encore des millions d'articles.