Les 50 meilleurs jeux de données gratuits pour l'apprentissage automatique - Apprendre langue

Pneu Goodyear Duramax 7.50/ R 16 121 120 L - Ete

Votre pneu GOODYEAR Duramax 7.50/ R 16 121 120 L au meilleur prix sur 1001pneus ! ⚡ Livraison rapide et gratuite* ⌚ Paiement CB en 3x / 4x ⭐ Montage des pneus près de chez vous.

245,40 €
Pneu Goodyear Duramax 7.50/ R 16 122 120 L - Ete

Votre pneu GOODYEAR Duramax 7.50/ R 16 122 120 L au meilleur prix sur 1001pneus ! ⚡ Livraison rapide et gratuite* ⌚ Paiement CB en 3x / 4x ⭐ Montage des pneus près de chez vous.

216,70 €

Cet article est également disponible en japonais et en chinois simplifié.

Lionbridge AI a rassemblé une multitude de ressources pour les activités d’apprentissage automatique et de traitement du langage naturel. Dans nos articles précédents, nous avons expliqué pourquoi les jeux de données font partie intégrante de l’apprentissage automatique et du traitement du langage naturel. Sans jeux de données d'apprentissage, les algorithmes d'apprentissage automatique n'auraient aucun moyen d'apprendre à exploiter l'exploration de texte, la classification de texte ou la catégorisation de produits.

Cet article est la liste ultime des jeux de données ouverts pour l'apprentissage automatique. Ils vont du vaste (vous regarde, Kaggle) au très spécifique, tels que les actualités financières ou les jeux de données de produits Amazon.

Tout d’abord, gardez à l’esprit ces points de repère rapides lors de la recherche d’ensembles de données:

Recherchez des ensembles de données propres, car vous ne voulez pas perdre de temps à nettoyer vous-même les données.
Recherchez des jeux de données sans trop de lignes et de colonnes, car ils sont plus faciles à utiliser.
Il devrait y avoir une question intéressante à laquelle vous pouvez répondre avec le jeu de données.

Allons-y!

Recherche de jeu de données

Kaggle: site de science des données contenant une variété d'ensembles de données intéressants fournis de l'extérieur. Vous pouvez trouver toutes sortes de jeux de données de niche dans sa liste principale, des évaluations de ramen aux données de basket-ball et même aux licences pour animaux de compagnie de Seattle.

Référentiel UCI Machine Learning: l’une des plus anciennes sources de jeux de données sur le Web et un excellent point de départ pour rechercher des jeux de données intéressants. Bien que les ensembles de données soient fournis par l'utilisateur et présentent donc différents niveaux de propreté, la grande majorité sont propres. Vous pouvez télécharger des données directement à partir du référentiel UCI Machine Learning, sans inscription.

Jeux de données du gouvernement public

Data.gov: Ce site permet de télécharger des données de plusieurs agences gouvernementales américaines. Les données peuvent aller des budgets gouvernementaux aux scores de performance des écoles. Soyez averti cependant: une grande partie des données nécessite des recherches supplémentaires.

Food Environment Atlas: contient des données sur la manière dont les choix alimentaires locaux affectent le régime alimentaire aux États-Unis.

Finances du système scolaire: une enquête sur les finances des systèmes scolaires aux États-Unis.

Données sur les maladies chroniques: données sur les indicateurs de maladies chroniques dans diverses régions des États-Unis.

Centre national des statistiques de l’éducation des États-Unis: données sur les établissements d’enseignement et la démographie de l’éducation aux États-Unis et dans le monde.

UK Data Service: la plus grande collection de données sociales, économiques et démographiques du Royaume-Uni.

Data USA: Visualisation complète des données publiques américaines.

Finance et économie

Quandl: une bonne source de données économiques et financières – utile pour construire des modèles permettant de prévoir des indicateurs économiques ou des cours boursiers.

Open Bank de la Banque mondiale: ensembles de données couvrant la démographie de la population et un grand nombre d'indicateurs économiques et de développement du monde entier.

Données du FMI: Le Fonds monétaire international publie des données sur les finances internationales, les taux d'endettement, les réserves de change, les prix des produits de base et les investissements.

Données du marché du Financial Times: informations actualisées sur les marchés financiers du monde entier, notamment les indices de prix des actions, les produits de base et les taux de change.

Google Trends: examinez et analysez les données relatives aux activités de recherche sur Internet et aux tendances dans le monde.

American Economic Association (AEA): Une bonne source pour trouver des données macroéconomiques aux États-Unis.

Jeux de données d'image pour l'apprentissage automatique

Labelme: Un grand ensemble de données d'images annotées.

ImageNet: Le jeu de données d'image de facto pour les nouveaux algorithmes. Est organisé en fonction de la hiérarchie WordNet, dans laquelle chaque nœud de la hiérarchie est représenté par des centaines et des milliers d'images.

LSUN: compréhension de la scène avec de nombreuses tâches auxiliaires (estimation de la disposition des pièces, prédiction de la saillance, etc.)

MS COCO: compréhension d'image générique et sous-titrage.

COIL100: 100 objets différents imagés sous tous les angles dans une rotation de 360.

Génome visuel: Base de connaissances visuelle très détaillée avec sous-titrage d’environ 100 000 images.

Open Images de Google: une collection de 9 millions d’URL d’images "qui ont été annotées avec des étiquettes couvrant plus de 6 000 catégories" sous Creative Commons.

Visages étiquetés dans la nature: 13 000 images de visages humains étiquetées, à utiliser pour développer des applications impliquant la reconnaissance faciale.

Stanford Dogs Dataset: Contient 20 580 images et 120 catégories de races de chiens différentes.

Reconnaissance de scène en intérieur: un ensemble de données très spécifique, utile car la plupart des modèles de reconnaissance de scène sont meilleurs à l’extérieur. Contient 67 catégories Indoor et un total de 15620 images.

Analyses de sentiments

Ensemble de données d'analyse de sentiment multi-domaine: Un ensemble de données légèrement plus ancien qui contient des critiques de produits d'Amazon.

Revues IMDB: Un jeu de données ancien et relativement petit pour la classification des sentiments binaires, contient 25 000 critiques de films.

Stanford Sentiment Treebank: ensemble de données de sentiment standard avec des annotations de sentiment.

Sentiment140: un jeu de données populaire, qui utilise 160 000 tweets avec des émoticônes pré-supprimés.

Twitter US Airline Sentiment: données Twitter de février 2015 concernant les compagnies aériennes américaines, classées comme tweets positifs, négatifs et neutres

Traitement de données en langage naturel

Enron Dataset: Données de courrier électronique de la direction générale d’Enron, organisées en dossiers.

Amazon Avis: Contient environ 35 millions d'avis publiés par Amazon sur 18 ans. Les données comprennent les informations sur les produits et les utilisateurs, les évaluations et la révision du texte en clair.

Google Books Ngrams: une collection de mots de Google livres.

Blogger Corpus: Une collection de 681 288 articles de blog provenant de blogger.com. Chaque blog contient au moins 200 occurrences de mots anglais couramment utilisés.

Données des liens Wikipedia: Le texte intégral de Wikipedia. L'ensemble de données contient près de 1,9 milliard de mots provenant de plus de 4 millions d'articles. Vous pouvez effectuer une recherche par mot, par phrase ou par partie d'un paragraphe.

Gutenberg eBooks List: Liste annotée d'ebooks de Project Gutenberg.

Morceaux de textes de hansards du Parlement canadien: 1,3 million de paires de textes tirés des archives du 36e Parlement canadien.

Jeopardy: Archive de plus de 200 000 questions du jeu télévisé Jeopardy.

SMS Spam Collection en anglais: ensemble de données composé de 5 574 messages de spam en anglais

Avis Yelp: un ensemble de données ouvert publié par Yelp contient plus de 5 millions d'avis.

UCI’s Spambase: un grand ensemble de données concernant les spams, utile pour le filtrage des spams.

Jeux de données pour voitures autonomes

Berkeley DeepDrive BDD100k: Il s'agit actuellement du plus grand ensemble de données pour l'IA autonome. Contient plus de 100 000 vidéos de plus de 1 100 heures de conduite à différents moments de la journée et selon les conditions météorologiques. Les images annotées proviennent des régions de New York et de San Francisco.

Baidu Apolloscapes: Grand jeu de données d'image qui définit 26 éléments sémantiques différents tels que voitures, vélos, piétons, bâtiments, lampadaires, etc.

Comma.ai: Plus de 7 heures de conduite sur autoroute. Les détails incluent la vitesse, l’accélération, l’angle de braquage et les coordonnées GPS de la voiture.

Voiture robotique d’Oxford: plus de 100 répétitions du même itinéraire à travers Oxford, au Royaume-Uni, capturées sur une période d’un an. L'ensemble de données capture différentes combinaisons de conditions météorologiques, de circulation et de piétons, ainsi que des modifications à long terme telles que la construction et les travaux routiers.

Cityscape Dataset: Un grand jeu de données qui enregistre des scènes de rues urbaines dans 50 villes différentes.

CSSAD Dataset: Cet ensemble de données est utile pour la perception et la navigation de véhicules autonomes. L'ensemble de données pèse lourdement sur les routes du monde développé.

KUL Belgium Traffic Sign Datetet: Plus de 10000+ annotations de panneaux de signalisation provenant de milliers de panneaux de signalisation physiquement distincts dans la région flamande en Belgique.

MIT AGE Lab: échantillon de plus de 1 000 heures d'ensembles de données de conduite multicapteurs collectés à AgeLab.

LISA: Laboratoire pour les automobiles intelligentes et sûres, UC San Diego: Cet ensemble de données comprend les panneaux de signalisation, la détection de véhicules, les feux de circulation et les modèles de trajectoire.

Si vous pensez que nous avons manqué un jeu de données, faites-le nous savoir! Sinon, n'hésitez pas à consulter nos listes des meilleurs jeux de données ouverts par industrie ou par cas d'utilisation. Ils couvrent tout, des ensembles de données financières et économiques aux ensembles de données pour le traitement du langage naturel.

Vous ne trouvez toujours pas ce dont vous avez besoin? Lionbridge AI possède plus de deux décennies d'expérience dans la construction de jeux de données complets et précis pour les projets d'apprentissage automatique. Avec 500 000 linguistes qualifiés travaillant dans plus de 300 langues, nous sommes bien placés pour créer l’ensemble de données personnalisé que vous avez recherché.

Intéressé? Obtenez des données de haute qualité maintenant