Filtre de projetss
Réinitialiser le filtre
Recherche par pays
Type de projetss
Niveau d'expérience
Budget
-
Durées de projetss

Nombre de résultats: 1

Budget : 8 500.00€ Fixe

Catégorie de projet : Web / Moteur de recherche

Estimated duration : Moins d'un mois

Une société en partenariat avec une académie recherche un développeur spécialisé pour concevoir un moteur de recherche innovant dédié à sa vaste collection de documents PDF.

L'objectif est de créer une plateforme de recherche performante capable d'indexer et de rechercher efficacement dans des millions de documents PDF académiques et scientifiques.

Le projet implique le développement d'un système d'extraction de texte intelligent capable de gérer divers formats de PDF, y compris ceux contenant des formules mathématiques, des tableaux et des graphiques. Vous devrez implémenter des algorithmes de traitement du langage naturel (NLP) pour améliorer la pertinence des résultats de recherche, notamment en tenant compte du contexte académique et des citations.


Une attention particulière sera portée à l'optimisation des performances d'indexation et de recherche, potentiellement en utilisant des techniques de recherche distribuée. Vous devrez également développer des fonctionnalités avancées telles que la recherche par similarité de contenu, la détection de plagiat, et la génération automatique de résumés pour les résultats de recherche.


Le système devra inclure une interface utilisateur intuitive permettant des recherches complexes, y compris la recherche booléenne, la recherche par champs (auteur, titre, année de publication, etc.), et la possibilité de filtrer les résultats selon divers critères académiques.

Une expérience approfondie dans le développement de moteurs de recherche et le traitement de documents PDF est essentielle. La capacité à concevoir des solutions innovantes pour l'analyse et la recherche de contenu académique sera particulièrement appréciée.


Compétences : Python, Java ou C++, Elasticsearch ou Solr, Apache Tika, OCR (tesseract), NLP (NLTK ou spaCy), Machine Learning (scikit-learn ou TensorFlow), React ou Angular pour l'interface utilisateur, Git

  • France
  • Proposition: 0
  • Vérifié