Logo de l'association BDX I/OIcône navigation
Big Data & I.A.

Le réseau de neurones qui écrivait des romans

Hands on lab - 100min DébutantFrançais

Vous débutez dans l’utilisation des réseaux de neurones ? Vous souhaiteriez connaître quelques bonnes pratiques vous permettant de rapidement rendre opérationnel un premier cas d’usage ? Ce codelab est conçu pour vous !

Nous verrons comment sélectionner, spécialiser et mettre en production un réseau de neurones capable de générer une histoire dans le style de George Sand.

Déroulé du Codelab

1. Présentation et brise-glace (5min)

2.Préparer vos données : (25-35min) Vous pensez que la principale difficulté du métier de data scientist réside dans les réseaux de neurones ? Détrompez-vous : la mare au diable de la data science, ce sont les données. Durant cette première partie nous verrons au travers d’un exemple concret une grande partie des points d’attention à considérer lors d’un projet data science.

  • Quelques exemples de problématiques avec des données non préparées
  • Extraire les phrases d’un texte avec SpaCy
  • Données d’apprentissage, d’évaluation et de validation

3. Tokenisation : (20-30min) Toutes les données sont complexes, certaines le sont plus que d’autres. Transformer du texte en nombres compréhensibles par un réseau de neurones demande une approche particulière, la tokenisation, que nous décrirons durant cette seconde partie.

  • La tokenisation qu’est-ce que c’est ?
  • Les enjeux de la tokenisation
  • Utiliser un tokeniser générique ou le spécialiser : le pour et le contre.

4. Spécialisation : (25-35min) Aujourd’hui nous disposons de nombreux réseaux de neurone déjà entraînés. Durant cette troisième étape nous verrons comme sélectionner un bon candidat et maximiser ses chances de répondre à notre problématique.

  • Quelques clés pour comprendre les réseaux de neurones
  • Entraînement de zéro
  • La spécialisation

5.Utilisation : (20-30min) Une fois notre réseau spécialisé, il nous reste à l’intégrer au sein d’une application métier. Durant cette dernière partie nous discuterons de quelques bonnes pratiques, tout en les mettant en application.

  • Création rapide d’une application web
  • Serving
  • Pour continuer

6. Conclusion et retours (5min)

Photo de Bérengère Mathieu

Bérengère Mathieu

  • Icône Github

Data scientist depuis 8 ans, je participe au développement de solutions industrielles dans les domaines de l’analyse d’images et du traitement du langage naturelle. Même si le coeur de mon métier consiste à créer et industrialiser des logiciels intégrant de l’intelligence artificielle, je dispose également une expérience d’une dizaine d’années dans le domaine de la formation universitaire et professionnelle.

Créative en diable, éclectique dans mes centres d’intérêt, mes incursions dans les sciences humaines et notamment en psychologie me permet d’avoir un regard atypique sur les thématiques que j’aborde.