Merlin pour une utilisation directe depuis le navigateur de ChatGPT

Cette version propose une version améliorée de ChatGPT pour Google.

Merlin permet à l’IA de s’intégrer de manière transparente dans le navigateur. L’extension est compatible avec de nombreux sites tels que LinkedIn, Google Search, Gmail… Le plus souvent, elle affiche une zone de texte personnalisée dans laquelle une requête peut être exécutée par ChatGPT (comme par exemple résumer un texte sélectionné).

Utiliser ChatGPT pour Échanger avec un Long PDF

Et si vous pouviez poser des questions à ChatGPT sur n’importe quel article de recherche ou fichier PDF de plusieurs dizaines de pages soumis pour analyse au préalable ?

C’est justement la promesse d’une nouvelle application baptisée ResearchGPT !

La promesse

Cette nouvelle application dopée par l’IA d’OpenAI promet de transformer votre expérience d’interaction avec les articles de recherche, livres blancs et longs PDF hébergés en ligne ou en local !

Baptisée par son concepteur ResearchGPT, ce logiciel offre la possibilité unique de poser une série de questions à un article de recherche et d’obtenir une réponse pertinente sans avoir à lire l’intégralité du fichier PDF (et tout en obtenant un aperçu des paragraphes sources utilisés pour formuler la réponse).

Comment tester et utiliser ResearchGPT ?

Pour tester ResearchGPT gratuitement, vous pouvez vous rendre sur ce site : https://www.dara.chat/

Il vous faudra ensuite cliquer sur « Try a free demo » . Une clé API OpenAI vous sera alors demandée pour pouvoir utiliser vos crédits lorsque vous interrogerez le PDF de votre choix en ligne.

Une fois la clé API renseignée, il vous suffira de renseigner l’URL du PDF qui servira de source d’information à l’IA et sur lequel vous souhaitez pouvoir poser toutes vos questions. Vous pouvez également le charger directement depuis votre ordinateur.

Une fois le PDF chargé sur le site, une interface de chat vous permettra de poser vos questions et d’obtenir les réponses grâce au modèle GPT d’OpenAI.

Les références utilisées par l’IA pour rédiger les réponses seront ajoutées en notes sous la réponse pour que vous puissiez ensuite naviguer rapidement dans le fichier PDF afin de pouvoir vérifier les informations soumises.

Comment fonctionne ResearchGPT (techniquement) ?

Le fonctionnement de ReasearchGPT repose sur l’extraction et le nettoyage du texte présent dans le PDF soumis par l’internaute de manière à ce que chaque morceau de texte contienne des informations telles qu’un minimum de contexte extérieur soit nécessaire.

Le texte, scindé en multiples morceaux de texte d’une longueur d’environ 40 à 200 mots, est intégré à l’aide d’un modèle de transformateur de phrases. L’intégralité du document est ensuite stocké dans un index d’une base de données vectorielle.

Concrètement, tout les textes du fichier PDF soumis sont ainsi extraits et catégorisés pour qu’ils puissent ensuite alimenter en information l’IA qui sera utilisée pour répondre à la question de l’internaute.

Comment l’installer ?

Pour l’installer directement sur votre machine, vous pouvez retrouver les instructions directement sur la page Github du projet : https://github.com/mukulpatnaik/researchgpt

Je n’ai pas encore tester cette fonctionnalité, mais amusez-vous bien !

Un outil pour connecter vos données à ChatGPT

ChatGPT est déjà très puissant, mais vous pouvez aussi lui ajouter vos propres donnée : Databerry

 

Databerry se spécialise dans l’optimisation de l’utilisation des données. Vous pouvez créer votre propre plugin pour les connecter à ChatGPT.

 

Un agent ChatGPT basé sur vos données propres

Databerry permet de mettre au point un agent ChatGPT basé sur vos données sans aucune notion de code. Pour cela, il faut d’abord connecter votre data à l’outil. Elle peut provenir de diverses sources : site web, PDF, Excel… Une fois cela fait, il convient de configurer le plugin en lui donnant un nom, en écrivant une description et en ajoutant votre logo. Après avoir terminé le paramétrage, vous pourrez l’installer.

ChatGPT Agent Trained On Your Custom Data

Dès que vous poserez une question à votre agent ChatGPT, il puise dans votre data pour y répondre. La possibilité de mettre en place un système de recherche sémantique sur vos propres données est donc un réel atout. Elles sont mises à jour en même temps que vos documents, ce qui permet à l’IA d’avoir constamment accès à des informations actualisées. C’est également un moyen de faire parler vos données plus simplement. Databerry précise que le contenu de vos documents est hébergé sur des serveurs AWS sécurisés en Europe.

Les utilisations possibles

Votre ChatGPT personnalisé peut être utilisée pour simplifier le travail de vos collaborateurs, ou pour aider vos clients plus facilement. Elle peut endosser le rôle de support client et répondre à leurs questions sur vos services ou votre produit, le tout grâce à votre data. Il est aussi possible d’intégrer la technologie à Slack, WhatsApp mais également à toute autre plateforme pour que vos prospects l’utilisent sur leurs canaux préférés. L’intégration sur un site web est par ailleurs proposée. Il suffit de copier et de coller un bout de code, et le tour est joué. Côté accessibilité, Databerry prend en charge 90 langues.

Le plus, c’est que la solution fournit des statistiques quant à l’utilisation de votre plugin.

Quels sont les coûts ?

A la base, Databerry est un outil freemium. La version gratuite vous débloque un accès, la connexion à une source de données, vingt requêtes par mois et la synchronisation manuelle des données. Les options restent toutefois limitées.

Des licences payantes et bien plus complètes sont proposées dès 25 dollars par mois.

Comment Empêcher le Robot d’OpenAI (ChatGPT) d’accéder à Votre Site Internet ?

Voici comment vous pouvez très simplement bloquer le robot d’exploration GPTbot qui va alimenter les prochaines modèles GPT en nouvelles données d’entrainement.

 

Pourquoi bloquer le robot d’exploration d’OpenAI ?

Voici quelques raisons qui pourraient pousser certains éditeurs de sites à vouloir bloquer le web crawler d’OpenAI :

  1. Propriété intellectuelle et droits d’auteur : certains sites web pourraient ne pas vouloir que leur contenu soit utilisé pour entraîner un modèle commercial sans compensation ou autorisation.
  2. Intégrité du contenu : les éditeurs pourraient craindre que le contenu soit mal interprété ou mal utilisé, conduisant à de la désinformation ou des utilisations contraires à leur éthique.
  3. Philosophie open web : les propriétaires de sites sensibles à l’open source pourraient estimer que les données collectées pour des gains commerciaux ne correspondent pas à leur idéologie d’un web libre et ouvert.
  4. Confidentialité : les sites qui hébergent des données sensibles ou privées pourraient craindre que ces données soient aspirées, même si le robot d’exploration est censé exclure ces types de contenus.
  5. Préoccupations sur les monopoles : certains éditeurs peuvent avoir des inquiétudes quant à la concentration du pouvoir et de l’influence entre les mains de quelques grandes entreprises technologiques et peuvent ne pas vouloir contribuer à leur croissance.

Comment procéder ?

Pour empêcher GPTbot d’accéder et d’utiliser les contenus de votre site, il suffit d’ajouter quelques lignes de code dans le fichier texte robots.txt disponible à la racine de votre site web :

User-agent: GPTBot
Disallow: /

Cette directive indique concrètement au robot d’exploration qu’il n’est pas autorisé à parcourir l’intégralité des pages de votre site web.

Si vous désirez restreindre le web crawler d’une ou de plusieurs parties spécifiques de votre site web, il faudra alors adapter cette règle pour ouvrir les répertoires spécifiques et fermer l’accès au reste.

Voici un exemple pour bloquer un répertoire et autoriser un autre :

User-agent: GPTBot
Allow: /actualites/
Disallow: /dossiers/

Dans l’exemple ci-dessus, le dossier /actualites/ sera ouvert à l’exploration alors que le second dossier, /dossiers/, sera lui bloqué.

Espérons que OpenAI respecte ses propres limitations…