Apprentissage automatique – Wikipedia – Apprendre une langue étrangère

Apprentissage machine (ML) est l’étude scientifique des algorithmes et des modèles statistiques que les systèmes informatiques utilisent pour effectuer efficacement une tâche spécifique sans utiliser d’instructions explicites, en s’appuyant plutôt sur des modèles et sur des déductions. Il est considéré comme un sous-ensemble de l'intelligence artificielle. Les algorithmes d'apprentissage automatique construisent un modèle mathématique basé sur des données d'échantillon, appelées «données d'apprentissage», afin de faire des prédictions ou des décisions sans être explicitement programmé pour effectuer la tâche.[1][2]:2 Les algorithmes d'apprentissage automatique sont utilisés dans une grande variété d'applications, telles que le filtrage de courrier électronique et la vision par ordinateur, où il est impossible de développer un algorithme d'instructions spécifiques pour effectuer la tâche. L'apprentissage automatique est étroitement lié aux statistiques informatiques, qui se concentrent sur la réalisation de prédictions à l'aide d'ordinateurs. L’étude de l’optimisation mathématique permet d’appliquer des méthodes, de la théorie et des domaines d’application au domaine de l’apprentissage automatique. L'exploration de données est un domaine d'étude de l'apprentissage automatique et se concentre sur l'analyse exploratoire de données par le biais d'un apprentissage non supervisé.[3][4] Dans son application à l'ensemble des problèmes de l'entreprise, l'apprentissage automatique est également appelé analyse prédictive.

Vue d'ensemble[[[[modifier]

Le nom apprentissage automatique a été inventé en 1959 par Arthur Samuel.[5] Tom M. Mitchell a fourni une définition largement citée et plus formelle des algorithmes étudiés dans le domaine de l'apprentissage automatique: "Un programme informatique apprendrait de l'expérience E en ce qui concerne une classe de tâches T et mesure de performance P si sa performance à des tâches dans T, mesurée par P, améliore avec l'expérience E. "[6] Cette définition des tâches liées à l'apprentissage automatique offre une définition fondamentalement opérationnelle plutôt que de définir le champ en termes cognitifs. Cela fait suite à la proposition d'Alan Turing dans son article "Computing Machinery and Intelligence", dans lequel la question "Les machines peuvent-elles penser?" est remplacée par la question "Les machines peuvent-elles faire ce que nous (en tant qu'entités pensantes) pouvons faire?".[7] Dans la proposition de Turing, les différentes caractéristiques que pourrait posséder un machine à penser et les diverses implications dans la construction d'un sont exposées.

Tâches d'apprentissage machine[[[[modifier]

Une machine à vecteurs de support est un modèle d'apprentissage supervisé qui divise les données en régions séparées par une limite linéaire. Ici, la limite linéaire sépare les cercles noirs du blanc.

Les tâches d'apprentissage automatique sont classées en plusieurs grandes catégories. Dans l'apprentissage supervisé, l'algorithme construit un modèle mathématique à partir d'un ensemble de données contenant à la fois les entrées et les sorties souhaitées. Par exemple, si la tâche déterminait si une image contenait un certain objet, les données d'apprentissage d'un algorithme d'apprentissage supervisé incluraient des images avec et sans cet objet (l'entrée), et chaque image aurait une étiquette (la sortie) indiquant si il contenait l'objet. Dans des cas particuliers, la saisie peut n'être que partiellement disponible ou limitée à un retour d'informations spécial.[[[[clarification nécessaire] Les algorithmes d'apprentissage semi-supervisés développent des modèles mathématiques à partir de données d'apprentissage incomplètes, dans lesquelles une partie de l'entrée de l'échantillon ne comporte pas d'étiquette.

Les algorithmes de classification et les algorithmes de régression sont des types d'apprentissage supervisé. Les algorithmes de classification sont utilisés lorsque les sorties sont limitées à un ensemble limité de valeurs. Pour un algorithme de classification qui filtre les courriers électroniques, l'entrée serait un courrier entrant et le résultat serait le nom du dossier dans lequel le classer. Pour un algorithme qui identifie les spams, le résultat serait la prédiction de "spam" ou de "non spam", représentée par les valeurs booléennes true et false. Les algorithmes de régression sont nommés pour leurs sorties continues, ce qui signifie qu'ils peuvent avoir n'importe quelle valeur dans une plage. Des exemples de valeur continue sont la température, la longueur ou le prix d'un objet.

Dans l'apprentissage non supervisé, l'algorithme construit un modèle mathématique à partir d'un ensemble de données qui ne contient que des entrées et aucune étiquette de sortie souhaitée. Des algorithmes d'apprentissage non supervisés sont utilisés pour trouver une structure dans les données, telle que le regroupement ou le regroupement de points de données. L'apprentissage non supervisé peut découvrir des modèles dans les données et peut regrouper les entrées en catégories, comme dans l'apprentissage par fonctions. La réduction de la dimensionnalité consiste à réduire le nombre de "fonctions", ou entrées, dans un ensemble de données.

Les algorithmes d'apprentissage actif accèdent aux sorties souhaitées (étiquettes de formation) pour un ensemble limité d'entrées basées sur un budget et optimisent le choix des entrées pour lesquelles des étiquettes de formation seront acquises. Lorsqu'ils sont utilisés de manière interactive, ils peuvent être présentés à un utilisateur humain pour être étiquetés. Les algorithmes d'apprentissage du renforcement reçoivent un retour sous forme de renforcement positif ou négatif dans un environnement dynamique et sont utilisés dans des véhicules autonomes ou pour apprendre à jouer à un jeu contre un adversaire humain.[2]:3 D'autres algorithmes spécialisés dans l'apprentissage automatique incluent la modélisation de sujets, où le programme informatique reçoit un ensemble de documents en langage naturel et trouve d'autres documents couvrant des sujets similaires. Des algorithmes d’apprentissage automatique peuvent être utilisés pour trouver la fonction de densité de probabilité non observable dans les problèmes d’estimation de la densité. Les algorithmes de méta-apprentissage apprennent leur propre biais inductif sur la base de l'expérience antérieure. Dans la robotique de développement, les algorithmes d'apprentissage par robot génèrent leurs propres séquences d'expériences d'apprentissage, également appelées programme, pour acquérir de manière cumulative de nouvelles compétences grâce à l'exploration auto-guidée et aux interactions sociales avec les humains. Ces robots utilisent des mécanismes de guidage tels que l'apprentissage actif, la maturation, les synergies motrices et l'imitation.[[[[clarification nécessaire]

Histoire et relations avec d'autres domaines[[[[modifier]

Arthur Samuel, un pionnier américain dans le domaine des jeux informatiques et de l'intelligence artificielle, a inventé le terme "Machine Learning" en 1959 alors qu'il travaillait chez IBM[8].
En tant que projet scientifique, l’apprentissage automatique est né de la quête de l’intelligence artificielle. Déjà au début de l'IA en tant que discipline universitaire, certains chercheurs souhaitaient que les machines tirent des enseignements des données. Ils ont essayé d'aborder le problème avec diverses méthodes symboliques, ainsi qu'avec ce que l'on appelait alors des "réseaux de neurones"; il s’agissait pour la plupart de perceptrons et d’autres modèles qui ont par la suite été réinventés par les modèles statistiques linéaires généralisés.[9] Le raisonnement probabiliste a également été utilisé, en particulier dans le diagnostic médical automatisé.[10]:488

Cependant, l’accent mis de plus en plus sur l’approche logique, basée sur la connaissance, a entraîné une rupture entre l’intelligence artificielle et l’apprentissage automatique. Les systèmes probabilistes étaient en proie à des problèmes théoriques et pratiques d’acquisition et de représentation des données.[10]:488 En 1980, les systèmes experts en étaient venus à dominer l'IA, et les statistiques étaient en mauvaise posture.[11] Les travaux sur l'apprentissage symbolique / basé sur les connaissances se poursuivaient au sein de l'IA, conduisant à la programmation de la logique inductive, mais la ligne de recherche la plus statistique dépassait maintenant le domaine de l'IA proprement dite, à savoir la reconnaissance des formes et la recherche d'informations.[10]:708 à 710; 755 La recherche sur les réseaux de neurones avait été abandonnée par l'IA et l'informatique à peu près au même moment. Cette ligne a également été poursuivie en dehors du domaine de l'intelligence artificielle / de la sécurité, sous le nom de "connexionnisme", par des chercheurs d'autres disciplines, notamment Hopfield, Rumelhart et Hinton. Leur principal succès est venu au milieu des années 1980 avec la réinvention de la rétropropagation.[10]:25

L'apprentissage automatique, réorganisé en tant que domaine distinct, a commencé à prospérer dans les années 1990. Le domaine a changé son objectif, qui était d’atteindre l’intelligence artificielle, mais de résoudre des problèmes pratiques résolus. Elle s'est détournée des approches symboliques héritées de l'IA pour se tourner vers des méthodes et des modèles empruntés à la statistique et à la théorie des probabilités.[11] Il a également tiré parti de la disponibilité croissante d'informations numérisées et de la possibilité de les diffuser via Internet.

Relation avec l'exploration de données[[[[modifier]

L'apprentissage automatique et l'exploration de données utilisent souvent les mêmes méthodes et se chevauchent de manière significative, mais si l'apprentissage automatique est axé sur la prédiction, il est basé sur connu propriétés acquises à partir des données de formation, l’exploration de données se concentre sur la découverte inconnu propriétés dans les données (il s'agit de l'étape d'analyse de la découverte de connaissances dans les bases de données). L'exploration de données utilise de nombreuses méthodes d'apprentissage machine, mais avec des objectifs différents; d'autre part, l'apprentissage automatique utilise également des méthodes d'exploration de données en tant qu '"apprentissage non supervisé" ou d'étape de prétraitement visant à améliorer la précision de l'apprenant. Une grande partie de la confusion entre ces deux communautés de recherche (qui organisent souvent des conférences et des revues distinctes, à l'exception du PKDD du CELV) provient des hypothèses de base sur lesquelles elles travaillent: dans l'apprentissage machine, la performance est généralement évaluée en fonction de la capacité à reproduire connu connaissances, tandis que dans la découverte des connaissances et l’exploration de données (KDD), la tâche clé est la découverte des inconnu connaissance. Évaluée par rapport aux connaissances connues, une méthode non informée (non supervisée) sera facilement surclassée par d'autres méthodes supervisées, tandis que dans une tâche KDD typique, les méthodes supervisées ne peuvent pas être utilisées en raison de l'indisponibilité des données de formation.

Relation à l'optimisation[[[[modifier]

L’apprentissage automatique a également des liens étroits avec l’optimisation: de nombreux problèmes d’apprentissage sont formulés sous forme de minimisation de certaines fonctions de perte dans un ensemble d’exemples de formation. Les fonctions de perte expriment la discordance entre les prédictions du modèle en formation et les cas réels (par exemple, dans la classification, on veut attribuer une étiquette à des instances, et les modèles sont formés pour prédire correctement les étiquettes pré-attribuées d'un ensemble de exemples). La différence entre les deux champs provient de l'objectif de généralisation: alors que les algorithmes d'optimisation permettent de minimiser la perte sur un ensemble d'apprentissage, l'apprentissage automatique se préoccupe de minimiser la perte sur des échantillons invisibles.[12]

Relation à la statistique[[[[modifier]

L'apprentissage automatique et les statistiques sont des domaines étroitement liés. Selon Michael I. Jordan, les notions d’apprentissage automatique, des principes méthodologiques aux outils théoriques, ont une longue pré-histoire en statistique.[13] Il a également suggéré d'utiliser le terme science des données comme espace réservé pour appeler l'ensemble du domaine.[13]

Leo Breiman a distingué deux paradigmes de modélisation statistique: modèle de données et modèle algorithmique,[14] dans lequel "modèle algorithmique" signifie plus ou moins les algorithmes d'apprentissage automatique tels que la forêt aléatoire.

Certains statisticiens ont adopté des méthodes d’apprentissage automatique, menant à un domaine combiné qu’ils appellent apprentissage statistique.[15]

Un objectif essentiel de l'apprenant est de généraliser à partir de son expérience.[2][16] La généralisation dans ce contexte est la capacité d'une machine à apprendre à exécuter avec précision des nouveaux exemples / tâches invisibles après avoir expérimenté un jeu de données d'apprentissage. Les exemples de formation proviennent d'une distribution de probabilité généralement inconnue (considérée comme représentative de l'espace des occurrences) et l'apprenant doit construire un modèle général sur cet espace lui permettant de produire des prédictions suffisamment précises dans les nouveaux cas.

L'analyse computationnelle des algorithmes d'apprentissage automatique et de leurs performances est une branche de l'informatique théorique appelée théorie de l'apprentissage par calcul. Étant donné que les ensembles de formation sont finis et que l'avenir est incertain, la théorie de l'apprentissage ne fournit généralement aucune garantie quant à la performance des algorithmes. Au lieu de cela, les limites probabilistes sur la performance sont assez courantes. La décomposition biais – variance est un moyen de quantifier l'erreur de généralisation.

Pour obtenir les meilleures performances possibles dans le contexte de la généralisation, la complexité de l'hypothèse doit correspondre à la complexité de la fonction sous-jacente aux données. Si l'hypothèse est moins complexe que la fonction, le modèle sous-exploite les données. Si la complexité du modèle augmente en réponse, l'erreur d'apprentissage diminue. Mais si l'hypothèse est trop complexe, le modèle est sujet à un surajustement et la généralisation sera plus pauvre.[17]

Outre les limites de performance, les théoriciens de l'apprentissage étudient la complexité temporelle et la faisabilité de l'apprentissage. Dans la théorie de l'apprentissage informatique, un calcul est considéré comme réalisable s'il peut être effectué en temps polynomial. Il existe deux types de résultats en termes de complexité temporelle. Les résultats positifs montrent qu’une certaine classe de fonctions peut être apprise en temps polynomial. Les résultats négatifs montrent que certaines classes ne peuvent pas être apprises en temps polynomial.

Approches[[[[modifier]

Types d'algorithmes d'apprentissage[[[[modifier]

Les types d’algorithmes d’apprentissage automatique diffèrent par leur approche, le type de données qu’ils entrent et sortent et le type de tâche ou de problème qu’ils sont censés résoudre.

Apprentissage supervisé et semi-supervisé[[[[modifier]

Les algorithmes d'apprentissage supervisé construisent un modèle mathématique d'un ensemble de données contenant à la fois les entrées et les sorties souhaitées.[18] Les données sont appelées données d'apprentissage et consistent en un ensemble d'exemples d'apprentissage. Chaque exemple d'apprentissage comporte une ou plusieurs entrées et une sortie souhaitée, également appelée signal de supervision. Dans le cas des algorithmes d'apprentissage semi-supervisés, certains des exemples d'apprentissage manquent le résultat souhaité. Dans le modèle mathématique, chaque exemple d'apprentissage est représenté par un tableau ou un vecteur, et les données d'apprentissage par une matrice. Grâce à l'optimisation itérative d'une fonction objective, les algorithmes d'apprentissage supervisé apprennent une fonction qui peut être utilisée pour prédire la sortie associée à de nouvelles entrées.[19] Une fonction optimale permettra à l'algorithme de déterminer correctement la sortie pour les entrées qui ne faisaient pas partie des données d'apprentissage. Un algorithme qui améliore la précision de ses sorties ou de ses prévisions au fil du temps est réputé avoir appris à effectuer cette tâche.[6]

Les algorithmes d'apprentissage supervisé incluent la classification et la régression.[20] Les algorithmes de classification sont utilisés lorsque les sorties sont limitées à un ensemble limité de valeurs, et les algorithmes de régression sont utilisés lorsque les sorties peuvent avoir une valeur numérique quelconque dans une plage. L’apprentissage par similarité est un domaine de l’apprentissage automatique supervisé étroitement lié à la régression et à la classification, mais l’objectif est d’apprendre à partir d’exemples en utilisant une fonction de similarité qui mesure la similitude ou la relation entre deux objets. Il a des applications dans le classement, les systèmes de recommandation, le suivi d'identité visuel, la vérification des visages et la vérification des locuteurs.

Apprentissage non supervisé[[[[modifier]

Les algorithmes d'apprentissage non supervisés prennent un ensemble de données contenant uniquement des entrées et trouvent une structure dans les données, telle que le regroupement ou la mise en cluster de points de données. Les algorithmes tirent donc des enseignements des données de test qui n’ont pas été étiquetées, classées ou catégorisées. Au lieu de répondre aux commentaires, des algorithmes d'apprentissage non supervisés identifient les points communs des données et réagissent en fonction de la présence ou de l'absence de tels points communs dans chaque nouvel élément de données. Une application centrale de l’apprentissage non supervisé concerne l’estimation de la densité en statistique,[21] bien que l'apprentissage non supervisé englobe d'autres domaines impliquant la synthèse et l'explication des caractéristiques de données.

L’analyse par cluster est l’affectation d’un ensemble d’observations à des sous-ensembles (appelés grappes) de sorte que les observations d’un même groupe soient similaires selon un ou plusieurs critères prédéfinis, tandis que les observations tirées de différents groupes sont différentes. Différentes techniques de regroupement supposent différentes hypothèses sur la structure des données, souvent définies par certains utilisateurs. métrique de similarité et évalué, par exemple, par compacité interne, ou la similitude entre les membres d'un même groupe, et séparation, la différence entre les groupes. D'autres méthodes sont basées sur densité estimée et connectivité graphique.

Apprentissage par renforcement[[[[modifier]

L’apprentissage par renforcement est un domaine de l’apprentissage automatique qui concerne la manière dont les agents logiciels doivent agir dans un environnement afin de maximiser la notion de récompense cumulative. En raison de sa généralité, le domaine est étudié dans de nombreuses autres disciplines, telles que la théorie des jeux, la théorie du contrôle, la recherche opérationnelle, la théorie de l'information, l'optimisation par simulation, les systèmes multi-agents, l'intelligence en essaim, les statistiques et les algorithmes génétiques.[22][23] Dans l'apprentissage automatique, l'environnement est généralement représenté sous la forme d'un processus de décision de Markov (MDP). De nombreux algorithmes d'apprentissage par renforcement utilisent des techniques de programmation dynamiques.[22][23][24] Les algorithmes d'apprentissage par renforcement ne supposent pas la connaissance d'un modèle mathématique exact du PDM et sont utilisés lorsque des modèles exacts sont irréalisables.[22][23] Les algorithmes d'apprentissage par renforcement sont utilisés dans des véhicules autonomes ou pour apprendre à jouer à un jeu contre un adversaire humain.

Procédés et techniques[[[[modifier]

Différents processus, techniques et méthodes peuvent être appliqués à un ou plusieurs types d'algorithmes d'apprentissage automatique afin d'améliorer leurs performances.

Apprentissage des fonctionnalités[[[[modifier]

Plusieurs algorithmes d'apprentissage visent à découvrir de meilleures représentations des entrées fournies lors de la formation.[25] Les exemples classiques incluent l’analyse en composantes principales et l’analyse par grappes. Les algorithmes d'apprentissage de fonctions, également appelés algorithmes d'apprentissage de représentation, tentent souvent de conserver les informations dans leur entrée, mais les transforment également d'une manière qui les rend utiles, souvent en tant qu'étape de pré-traitement avant d'effectuer une classification ou des prédictions. Cette technique permet de reconstituer les entrées issues de la distribution génératrice de données inconnue, sans pour autant être fidèle aux configurations non plausibles dans cette distribution. Ceci remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.

L'apprentissage des fonctionnalités peut être supervisé ou non supervisé. Dans l'apprentissage supervisé des caractéristiques, les caractéristiques sont apprises à l'aide de données d'entrée étiquetées. Les exemples incluent les réseaux de neurones artificiels, les perceptrons multicouches et l'apprentissage supervisé par dictionnaire. Dans l'apprentissage des fonctionnalités non supervisées, les fonctionnalités sont apprises avec des données d'entrée non étiquetées. Exemples: apprentissage par dictionnaire, analyse par composants indépendants, auto-encodeurs, factorisation matricielle[26] et diverses formes de regroupement.[27][28][29]

Les algorithmes d'apprentissage du collecteur tentent de le faire sous la contrainte que la représentation apprise est de faible dimension. Les algorithmes de codage sparse tentent de le faire sous la contrainte que la représentation apprise est clairsemée, ce qui signifie que le modèle mathématique comporte de nombreux zéros. Les algorithmes d’apprentissage multilinéaire de sous-espaces visent à apprendre des représentations de faible dimension directement à partir de représentations de tenseurs pour des données multidimensionnelles, sans les transformer en vecteurs de plus grande dimension.[30] Les algorithmes d'apprentissage approfondi permettent de découvrir plusieurs niveaux de représentation, ou une hiérarchie de fonctionnalités, avec des fonctionnalités de niveau supérieur, plus abstraites, définies en termes de (ou générant) des fonctionnalités de niveau inférieur. Il a été avancé qu'une machine intelligente est une machine qui apprend une représentation qui démêle les facteurs de variation sous-jacents qui expliquent les données observées.[31]

L’apprentissage des fonctionnalités est motivé par le fait que les tâches d’apprentissage automatique telles que la classification nécessitent souvent une saisie qui soit pratique sur le plan mathématique et informatique. Cependant, les données du monde réel telles que les images, la vidéo et les données sensorielles n’ont pas donné lieu à des tentatives de définition algorithmique de caractéristiques spécifiques. Une alternative consiste à découvrir de telles caractéristiques ou représentations à travers un examen, sans recourir à des algorithmes explicites.

Apprentissage du dictionnaire clairsemé[[[[modifier]

L’apprentissage par dictionnaire clairsemé est une méthode d’apprentissage de caractéristiques dans laquelle un exemple d’apprentissage est représenté par une combinaison linéaire de fonctions de base et est supposé être une matrice clairsemée. La méthode est fortement NP-difficile et difficile à résoudre approximativement.[32] L'algorithme K-SVD est une méthode heuristique populaire pour l'apprentissage du dictionnaire clairsemé. L'apprentissage clairsemé du dictionnaire a été appliqué dans plusieurs contextes. Dans la classification, le problème consiste à déterminer à quelles classes appartient un exemple de formation jamais vu auparavant. Pour un dictionnaire dans lequel chaque classe a déjà été construite, un nouvel exemple de formation est associé à la classe la mieux représentée par le dictionnaire correspondant. L’apprentissage par dictionnaire clairsemé a également été appliqué au débrouillage d’images. L'idée principale est qu'un patch d'image propre peut être représenté de manière parcimonieuse par un dictionnaire d'images, mais pas le bruit.[33]

Détection d'une anomalie[[[[modifier]

Dans l’exploration de données, la détection des anomalies, également appelée détection des valeurs aberrantes, consiste à identifier des éléments rares, des événements ou des observations qui soulèvent des suspicions en se différenciant de manière significative de la majorité des données.[34] En règle générale, les éléments anormaux représentent un problème tel que la fraude bancaire, un défaut structurel, des problèmes médicaux ou des erreurs dans un texte. Les anomalies sont appelées valeurs aberrantes, nouveautés, bruit, écarts et exceptions.[35]

En particulier, dans le contexte d'abus et de détection d'intrusion sur le réseau, les objets intéressants ne sont souvent pas des objets rares, mais des pics d'activité inattendus. Ce modèle n'adhère pas à la définition statistique commune d'une valeur aberrante en tant qu'objet rare et de nombreuses méthodes de détection de valeurs aberrantes (en particulier, des algorithmes non supervisés) échouent avec ces données, à moins qu'elles aient été agrégées de manière appropriée. Au lieu de cela, un algorithme d'analyse de groupe peut être capable de détecter les micro-groupes formés par ces modèles.[36]

Il existe trois grandes catégories de techniques de détection d'anomalies.[37] Les techniques de détection d'anomalie non supervisées détectent les anomalies dans un ensemble de données de test non étiqueté en supposant que la majorité des instances de l'ensemble de données sont normales, en recherchant les instances qui semblent correspondre le moins au reste de l'ensemble de données. Les techniques de détection d'anomalie supervisée nécessitent un ensemble de données étiqueté "normal" et "anormal" et impliquant la formation d'un classificateur (la principale différence par rapport à de nombreux autres problèmes de classification statistique réside dans la nature déséquilibrée de la détection des valeurs aberrantes). Les techniques de détection d'anomalie semi-supervisées construisent un modèle représentant le comportement normal d'un ensemble de données d'apprentissage normal, puis testent la probabilité qu'une instance de test soit générée par le modèle.

Arbres de décision[[[[modifier]

L'apprentissage de l'arbre de décision utilise un arbre de décision en tant que modèle prédictif pour passer des observations relatives à un élément (représenté dans les branches) à des conclusions sur la valeur cible de l'élément (représentée dans les feuilles). C'est l'une des approches de modélisation prédictive utilisées dans les statistiques, l'exploration de données et l'apprentissage automatique. Les modèles d'arborescence dans lesquels la variable cible peut prendre un ensemble discret de valeurs sont appelés des arbres de classification. dans ces arborescences, les feuilles représentent les étiquettes de classe et les branches représentent les conjonctions d'entités menant à ces étiquettes de classe. Les arbres de décision où la variable cible peut prendre des valeurs continues (généralement des nombres réels) sont appelés des arbres de régression. Dans l'analyse de décision, un arbre de décision peut être utilisé pour représenter visuellement et explicitement les décisions et la prise de décision. Dans l'exploration de données, un arbre de décision décrit les données, mais l'arbre de classification résultant peut être une entrée pour la prise de décision.

Règles d'association[[[[modifier]

L'apprentissage de règles d'association est une méthode d'apprentissage automatique basée sur des règles permettant de découvrir des relations entre des variables dans de grandes bases de données. Il est destiné à identifier les règles fortes découvertes dans les bases de données en utilisant une certaine mesure de "l'intérêt".[38]

L'apprentissage automatique à base de règles est un terme général qui désigne toute méthode d'apprentissage automatique qui identifie, apprend ou fait évoluer des "règles" pour stocker, manipuler ou appliquer des connaissances. La caractéristique déterminante d'un algorithme d'apprentissage automatique basé sur des règles est l'identification et l'utilisation d'un ensemble de règles relationnelles représentant collectivement les connaissances capturées par le système. Cela contraste avec d'autres algorithmes d'apprentissage automatique qui identifient généralement un modèle singulier qui peut être appliqué universellement à n'importe quelle instance afin de faire une prédiction.[39] Les approches d’apprentissage automatique basées sur des règles incluent l’apprentissage de systèmes de classification, l’apprentissage de règles d’association et les systèmes immunitaires artificiels.

Sur la base du concept de règles strictes, Rakesh Agrawal, Tomasz Imieliński et Arun Swami ont introduit des règles d'association pour la découverte de régularités entre des produits dans des données de transaction à grande échelle enregistrées par des systèmes de point de vente (supermarchés) dans les supermarchés.[40] Par exemple, la règle






o
n
je
o
n
s
,
p
o
t
une
t
o
e
s





b
vous
r
g
e
r




displaystyle mathrm oignons, pommes de terre Rightarrow mathrm burger

trouvés dans les données de vente d'un supermarché indiqueraient que si un client achète des oignons et des pommes de terre ensemble, ils achèteront probablement aussi de la viande de hamburger. Ces informations peuvent servir de base aux décisions concernant les activités de marketing telles que les prix promotionnels ou les placements de produits. Outre l'analyse des paniers de marché, les règles d'association sont utilisées aujourd'hui dans des domaines d'application tels que l'exploration de l'utilisation du Web, la détection d'intrusion, la production continue et la bioinformatique. Contrairement à l'exploration de séquence, l'apprentissage des règles d'association ne prend généralement pas en compte l'ordre des éléments au sein d'une transaction ou entre plusieurs transactions.

Les systèmes de classificateurs d’apprentissage (LCS) sont une famille d’algorithmes d’apprentissage automatique à base de règles qui combinent un composant de découverte, généralement un algorithme génétique, avec un composant d’apprentissage, effectuant un apprentissage supervisé, un apprentissage par renforcement ou un apprentissage non supervisé. Ils cherchent à identifier un ensemble de règles dépendant du contexte qui stockent et appliquent collectivement les connaissances de manière fragmentée afin de faire des prédictions.[41]

La programmation logique inductive (ILP) est une approche d'apprentissage de règles utilisant la programmation logique comme représentation uniforme pour des exemples d'entrée, des connaissances de base et des hypothèses. Étant donné le codage des connaissances de base connues et un ensemble d’exemples représentés sous la forme d’une base de données logique, un système ILP dérive un programme logique hypothétique qui comprend tous les exemples positifs et aucun négatif. La programmation inductive est un domaine connexe qui considère tout type de langage de programmation pour représenter des hypothèses (et pas seulement la programmation logique), tels que les programmes fonctionnels.

La programmation logique inductive est particulièrement utile en bioinformatique et en traitement du langage naturel. Gordon Plotkin et Ehud Shapiro ont jeté les bases théoriques initiales de l’apprentissage par la machine inductive dans un contexte logique.[42][43][44] Shapiro a construit sa première implémentation (Model Inference System) en 1981: un programme Prolog qui déduit de manière inductive les programmes de logique à partir d’exemples positifs et négatifs.[45] Le terme inductif On parle ici d'induction philosophique, suggérant une théorie pour expliquer les faits observés, plutôt qu'une induction mathématique, prouvant une propriété pour tous les membres d'un ensemble bien ordonné.

Des modèles[[[[modifier]

Réseaux de neurones artificiels[[[[modifier]

Un réseau de neurones artificiels est un groupe de nœuds interconnectés, semblable au vaste réseau de neurones du cerveau. Ici, chaque nœud circulaire représente un neurone artificiel et une flèche représente une connexion entre la sortie d'un neurone artificiel et l'entrée d'un autre.

Les réseaux de neurones artificiels (RNA), ou systèmes connexionnistes, sont des systèmes informatiques vaguement inspirés par les réseaux de neurones biologiques qui constituent le cerveau des animaux. De tels systèmes "apprennent" à effectuer des tâches en considérant des exemples, généralement sans être programmés avec des règles spécifiques à une tâche.

Un RNA est un modèle basé sur un ensemble d'unités ou de nœuds connectés appelés "neurones artificiels", qui modélisent de manière lâche les neurones d'un cerveau biologique. Chaque connexion, comme les synapses dans un cerveau biologique, peut transmettre des informations, un "signal", d'un neurone artificiel à un autre. Un neurone artificiel qui reçoit un signal peut le traiter puis signaler d'autres neurones artificiels qui y sont connectés. Dans les implémentations ANN courantes, le signal à une connexion entre des neurones artificiels est un nombre réel et la sortie de chaque neurone artificiel est calculée par une fonction non linéaire de la somme de ses entrées. Les connexions entre les neurones artificiels sont appelées "bords". Les neurones et les arêtes artificiels ont généralement un poids qui s'ajuste au fur et à mesure de l'apprentissage. Le poids augmente ou diminue l'intensité du signal lors d'une connexion. Les neurones artificiels peuvent avoir un seuil tel que le signal ne soit envoyé que si le signal agrégé dépasse ce seuil. En règle générale, les neurones artificiels sont agrégés en couches. Différentes couches peuvent effectuer différents types de transformations sur leurs entrées. Les signaux voyagent du premier calque (le calque d'entrée) au dernier calque (le calque de sortie), éventuellement après avoir traversé les calques plusieurs fois.

L’objectif initial de l’approche ANN était de résoudre les problèmes de la même manière que le ferait un cerveau humain. Cependant, avec le temps, l'attention s'est portée sur l'exécution de tâches spécifiques, conduisant à des déviations par rapport à la biologie. Les réseaux de neurones artificiels ont été utilisés pour diverses tâches, notamment la vision par ordinateur, la reconnaissance de la parole, la traduction automatique, le filtrage des réseaux sociaux, le jeu de plateau et les jeux vidéo et le diagnostic médical.

L'apprentissage en profondeur consiste en plusieurs couches cachées dans un réseau de neurones artificiels. Cette approche tente de modéliser la façon dont le cerveau humain transforme la lumière et le son en vision et en audition. Certaines applications réussies d’apprentissage en profondeur sont la vision par ordinateur et la reconnaissance de la parole.[46]

Machines à vecteurs de support[[[[modifier]

Les machines à vecteurs de support (SVM), également appelées réseaux de vecteurs de support, constituent un ensemble de méthodes d’apprentissage supervisé associées utilisées pour la classification et la régression. À partir d'un ensemble d'exemples d'apprentissage, chacun étant identifié comme appartenant à l'une des deux catégories, un algorithme d'apprentissage SVM crée un modèle qui prédit si un nouvel exemple tombe dans une catégorie ou dans une autre.[47] Un algorithme de formation SVM est un classifieur binaire linéaire non probabiliste, bien qu'il existe des méthodes telles que la mise à l'échelle Platt permettant d'utiliser SVM dans un paramètre de classification probabiliste. En plus d'effectuer une classification linéaire, les SVM peuvent efficacement effectuer une classification non linéaire en utilisant ce que l'on appelle le truc du noyau, en mappant implicitement leurs entrées dans des espaces de fonctions de grande dimension.

Réseaux bayésiens[[[[modifier]

Un réseau bayésien simple. La pluie influe sur l'activation ou non de l'arroseur. La pluie et l'arroseur déterminent également si l'herbe est humide.

Un réseau bayésien, un réseau de croyances ou un modèle graphique acyclique dirigé est un modèle graphique probabiliste qui représente un ensemble de variables aléatoires et leur indépendance conditionnelle à l'aide d'un graphe acyclique dirigé (DAG). Par exemple, un réseau bayésien pourrait représenter les relations probabilistes entre les maladies et les symptômes. Compte tenu des symptômes, le réseau peut être utilisé pour calculer les probabilités de présence de diverses maladies. Il existe des algorithmes efficaces qui effectuent l'inférence et l'apprentissage. Les réseaux bayésiens modélisant des séquences de variables, tels que les signaux de parole ou les séquences de protéines, sont appelés réseaux bayésiens dynamiques. Les généralisations de réseaux bayésiens capables de représenter et de résoudre des problèmes de décision dans des conditions d’incertitude sont appelées diagrammes d’influence.

Algorithmes génétiques[[[[modifier]

Un algorithme génétique (GA) est un algorithme de recherche et une technique heuristique qui imitent le processus de sélection naturelle en utilisant des méthodes telles que la mutation et le croisement pour générer de nouveaux génotypes dans l’espoir de trouver de bonnes solutions à un problème donné. Dans l’apprentissage automatique, des algorithmes génétiques ont été utilisés dans les années 1980 et 1990.[48][49] À l'inverse, des techniques d'apprentissage automatique ont été utilisées pour améliorer les performances d'algorithmes génétiques et évolutifs.[50]

Applications[[[[modifier]

Il existe de nombreuses applications pour l'apprentissage automatique, notamment:

In 2006, the online movie company Netflix held the first "Netflix Prize" competition to find a program to better predict user preferences and improve the accuracy on its existing Cinematch movie recommendation algorithm by at least 10%. A joint team made up of researchers from AT&T Labs-Research in collaboration with the teams Big Chaos and Pragmatic Theory built an ensemble model to win the Grand Prize in 2009 for $1 million.[51] Shortly after the prize was awarded, Netflix realized that viewers' ratings were not the best indicators of their viewing patterns ("everything is a recommendation") and they changed their recommendation engine accordingly.[52] In 2010 The Wall Street Journal wrote about the firm Rebellion Research and their use of machine learning to predict the financial crisis.[53] In 2012, co-founder of Sun Microsystems, Vinod Khosla, predicted that 80% of medical doctors jobs would be lost in the next two decades to automated machine learning medical diagnostic software.[54] In 2014, it was reported that a machine learning algorithm had been applied in the field of art history to study fine art paintings, and that it may have revealed previously unrecognized influences between artists.[55]In 2019 Springer Nature published the first research book created using machine learning.[56]

Limitations[[[[modifier]

Although machine learning has been transformative in some fields, machine-learning programs often fail to deliver expected results.[57][58][59] Reasons for this are numerous: lack of (suitable) data, lack of access to the data, data bias, privacy problems, badly chosen tasks and algorithms, wrong tools and people, lack of resources, and evaluation problems.[60]

In 2018, a self-driving car from Uber failed to detect a pedestrian, who was killed after a collision.[61] Attempts to use machine learning in healthcare with the IBM Watson system failed to deliver even after years of time and billions of investment.[62][63]

Bias[[[[modifier]

Machine learning approaches in particular can suffer from different data biases. A machine learning system trained on current customers only may not be able to predict the needs of new customer groups that are not represented in the training data. When trained on man-made data, machine learning is likely to pick up the same constitutional and unconscious biases already present in society.[64] Language models learned from data have been shown to contain human-like biases.[65][66] Machine learning systems used for criminal risk assessment have been found to be biased against black people.[67][68] In 2015, Google photos would often tag black people as gorillas,[69] and in 2018 this still was not well resolved, but Google reportedly was still using the workaround to remove all gorilla from the training data, and thus was not able to recognize real gorillas at all.[70] Similar issues with recognizing non-white people have been found in many other systems.[71] In 2016, Microsoft tested a chatbot that learned from Twitter, and it quickly picked up racist and sexist language.[72] Because of such challenges, the effective use of machine learning may take longer to be adopted in other domains.[73] Concern for reducing bias in machine learning and propelling its use for human good is increasingly expressed by artificial intelligence scientists, including Fei-Fei Li, who reminds engineers that "There’s nothing artificial about AI…It’s inspired by people, it’s created by people, and—most importantly—it impacts people. It is a powerful tool we are only just beginning to understand, and that is a profound responsibility.”[74]

Model assessments[[[[modifier]

Classification machine learning models can be validated by accuracy estimation techniques like the Holdout method, which splits the data in a training and test set (conventionally 2/3 training set and 1/3 test set designation) and evaluates the performance of the training model on the test set. In comparison, the K-fold-cross-validation method randomly partitions the data into K subsets and then K experiments are performed each respectively considering 1 subset for evaluation and the remaining K-1 subsets for training the model. In addition to the holdout and cross-validation methods, bootstrap, which samples n instances with replacement from the dataset, can be used to assess model accuracy.[75]

In addition to overall accuracy, investigators frequently report sensitivity and specificity meaning True Positive Rate (TPR) and True Negative Rate (TNR) respectively. Similarly, investigators sometimes report the False Positive Rate (FPR) as well as the False Negative Rate (FNR). However, these rates are ratios that fail to reveal their numerators and denominators. The Total Operating Characteristic (TOC) is an effective method to express a model's diagnostic ability. TOC shows the numerators and denominators of the previously mentioned rates, thus TOC provides more information than the commonly used Receiver Operating Characteristic (ROC) and ROC's associated Area Under the Curve (AUC).[76]

Machine learning poses a host of ethical questions. Systems which are trained on datasets collected with biases may exhibit these biases upon use (algorithmic bias), thus digitizing cultural prejudices.[77] For example, using job hiring data from a firm with racist hiring policies may lead to a machine learning system duplicating the bias by scoring job applicants against similarity to previous successful applicants.[78][79] Responsible collection of data and documentation of algorithmic rules used by a system thus is a critical part of machine learning.

Because language contains biases, machines trained on language corpora will necessarily also learn bias.[80]

Other forms of ethical challenges, not related to personal biases, are more seen in health care. There are concerns among health care professionals that these systems might not be designed in the public's interest, but as income generating machines. This is especially true in the United States where there is a perpetual ethical dilemma of improving health care, but also increasing profits. For example, the algorithms could be designed to provide patients with unnecessary tests or medication in which the algorithm's proprietary owners hold stakes in. There is huge potential for machine learning in health care to provide professionals a great tool to diagnose, medicate, and even plan recovery paths for patients, but this will not happen until the personal biases mentioned previously, and these "greed" biases are addressed.[81]

Software[[[[modifier]

Software suites containing a variety of machine learning algorithms include the following:

Free and open-source software[[[[modifier]

Proprietary software with free and open-source editions[[[[modifier]

Proprietary software[[[[modifier]

Journaux[[[[modifier]

Conferences[[[[modifier]

Voir également[[[[modifier]

Références[[[[modifier]

  1. ^ The definition "without being explicitly programmed" is often attributed to Arthur Samuel, who coined the term "machine learning" in 1959, but the phrase is not found verbatim in this publication, and may be a paraphrase that appeared later. Confer "Paraphrasing Arthur Samuel (1959), the question is: How can computers learn to solve problems without being explicitly programmed?" dans Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996). Automated Design of Both the Topology and Sizing of Analog Electrical Circuits Using Genetic Programming. Artificial Intelligence in Design '96. Springer, Dordrecht. pp. 151–170. doi:10.1007/978-94-009-0279-4_9.
  2. ^ une b c Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, ISBN 978-0-387-31073-2
  3. ^ Machine learning and pattern recognition "can be viewed as two facets of the same field."[2]:vii
  4. ^ Friedman, Jerome H. (1998). "Data Mining and Statistics: What's the connection?". Computing Science and Statistics. 29 (1): 3–9.
  5. ^ Samuel, Arthur (1959). "Some Studies in Machine Learning Using the Game of Checkers". IBM Journal of Research and Development. 3 (3): 210–229. CiteSeerX 10.1.1.368.2254. doi:10.1147/rd.33.0210.
  6. ^ une b Mitchell, T. (1997). Machine Learning. McGraw Hill. p. 2. ISBN 978-0-07-042807-2.
  7. ^ Harnad, Stevan (2008), "The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence", in Epstein, Robert; Peters, Grace (eds.), The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer, Kluwer
  8. ^ R. Kohavi and F. Provost, "Glossary of terms," Machine Learning, vol. 30, no. 2–3, pp. 271–274, 1998.
  9. ^ Sarle, Warren (1994). "Neural Networks and statistical models". CiteSeerX 10.1.1.27.699.
  10. ^ une b c Russell, Stuart; Norvig, Peter (2003) [1995]. Artificial Intelligence: A Modern Approach (2e éd.). Prentice Hall. ISBN 978-0137903955.
  11. ^ une b Langley, Pat (2011). "The changing science of machine learning". Machine Learning. 82 (3): 275–279. doi:10.1007/s10994-011-5242-y.
  12. ^ Le Roux, Nicolas; Bengio, Yoshua; Fitzgibbon, Andrew (2012). "Improving First and Second-Order Methods by Modeling Uncertainty". In Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (eds.). Optimization for Machine Learning. MIT Press. p. 404.
  13. ^ une b Michael I. Jordan (2014-09-10). "statistics and machine learning". reddit. Récupéré 2014-10-01.
  14. ^ Cornell University Library. "Breiman: Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author)". Récupéré 8 August 2015.
  15. ^ Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. p. vii.
  16. ^ Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press. ISBN 9780262018258.
  17. ^ Alpaydin, Ethem (2010). Introduction to Machine Learning. London: The MIT Press. ISBN 978-0-262-01243-0. Récupéré 4 février 2017.
  18. ^ Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (Troisième éd.). Prentice Hall. ISBN 9780136042594.
  19. ^ Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. The MIT Press. ISBN 9780262018258.
  20. ^ Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Press. p. 9. ISBN 978-0-262-01243-0.
  21. ^ Jordan, Michael I.; Bishop, Christopher M. (2004). "Neural Networks". In Allen B. Tucker (ed.). Computer Science Handbook, Second Edition (Section VII: Intelligent Systems). Boca Raton, Florida: Chapman & Hall/CRC Press LLC. ISBN 978-1-58488-360-9.
  22. ^ une b c Dimitri P. Bertsekas. "Dynamic Programming and Optimal Control: Approximate Dynamic Programming, Vol.II", Athena Scientific, 2012,[1]
  23. ^ une b c Dimitri P. Bertsekas and John N. Tsitsiklis. "Neuro-Dynamic Programming", Athena Scientific, 1996,[2]
  24. ^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Reinforcement Learning. Adaptation, Learning, and Optimization. 12. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  25. ^ Y. Bengio; A. Courville; P. Vincent (2013). "Representation Learning: A Review and New Perspectives". IEEE Trans. PAMI, Special Issue Learning Deep Architectures. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338.
  26. ^ Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola (2004). Maximum-Margin Matrix Factorization. NIPS.
  27. ^ Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). Int'l Conf. on AI and Statistics (AISTATS).
  28. ^ Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual categorization with bags of keypoints (PDF). ECCV Workshop on Statistical Learning in Computer Vision.
  29. ^ Daniel Jurafsky; James H. Martin (2009). Speech and Language Processing. Pearson Education International. pp. 145–146.
  30. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
  31. ^ Yoshua Bengio (2009). Learning Deep Architectures for AI. Now Publishers Inc. pp. 1–3. ISBN 978-1-60198-294-0.
  32. ^ Tillmann, A. M. (2015). "On the Computational Intractability of Exact and Approximate Dictionary Learning". IEEE Signal Processing Letters. 22 (1): 45–49. arXiv:1405.6664. Bibcode:2015ISPL…22…45T. doi:10.1109/LSP.2014.2345761.
  33. ^ Aharon, M, M Elad, and A Bruckstein. 2006. "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation." Signal Processing, IEEE Transactions on 54 (11): 4311–4322
  34. ^ Zimek, Arthur; Schubert, Erich (2017), "Outlier Detection", Encyclopedia of Database Systems, Springer New York, pp. 1–5, doi:10.1007/978-1-4899-7993-3_80719-1, ISBN 9781489979933
  35. ^ Hodge, V. J.; Austin, J. (2004). "A Survey of Outlier Detection Methodologies" (PDF). Artificial Intelligence Review. 22 (2): 85–126. CiteSeerX 10.1.1.318.4023. doi:10.1007/s10462-004-4304-y.
  36. ^ Dokas, Paul; Ertoz, Levent; Kumar, Vipin; Lazarevic, Aleksandar; Srivastava, Jaideep; Tan, Pang-Ning (2002). "Data mining for network intrusion detection" (PDF). Proceedings NSF Workshop on Next Generation Data Mining.
  37. ^ Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58. doi:10.1145/1541880.1541882.
  38. ^ Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
  39. ^ Bassel, George W.; Glaab, Enrico; Marquez, Julietta; Holdsworth, Michael J.; Bacardit, Jaume (2011-09-01). "Functional Network Construction in Arabidopsis Using Rule-Based Machine Learning on Large-Scale Data Sets". The Plant Cell. 23 (9): 3101–3116. doi:10.1105/tpc.111.088153. ISSN 1532-298X. PMC 3203449. PMID 21896882.
  40. ^ Agrawal, R.; Imieliński, T.; Swami, A. (1993). "Mining association rules between sets of items in large databases". Proceedings of the 1993 ACM SIGMOD international conference on Management of data – SIGMOD '93. p. 207. CiteSeerX 10.1.1.40.6984. doi:10.1145/170035.170072. ISBN 978-0897915922.
  41. ^ Urbanowicz, Ryan J.; Moore, Jason H. (2009-09-22). "Learning Classifier Systems: A Complete Introduction, Review, and Roadmap". Journal of Artificial Evolution and Applications. 2009: 1–25. doi:10.1155/2009/736398. ISSN 1687-6229.
  42. ^ Plotkin G.D. Automatic Methods of Inductive Inference, PhD thesis, University of Edinburgh, 1970.
  43. ^ Shapiro, Ehud Y. Inductive inference of theories from facts, Research Report 192, Yale University, Department of Computer Science, 1981. Reprinted in J.-L. Lassez, G. Plotkin (Eds.), Computational Logic, The MIT Press, Cambridge, MA, 1991, pp. 199–254.
  44. ^ Shapiro, Ehud Y. (1983). Algorithmic program debugging. Cambridge, Mass: MIT Press. ISBN 0-262-19218-7
  45. ^ Shapiro, Ehud Y. "The model inference system." Proceedings of the 7th international joint conference on Artificial intelligence-Volume 2. Morgan Kaufmann Publishers Inc., 1981.
  46. ^ Honglak Lee, Roger Grosse, Rajesh Ranganath, Andrew Y. Ng. "Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations" Proceedings of the 26th Annual International Conference on Machine Learning, 2009.
  47. ^ Cortes, Corinna; Vapnik, Vladimir N. (1995). "Support-vector networks". Machine Learning. 20 (3): 273–297. doi:10.1007/BF00994018.
  48. ^ Goldberg, David E.; Holland, John H. (1988). "Genetic algorithms and machine learning". Machine Learning. 3 (2): 95–99. doi:10.1007/bf00113892.
  49. ^ Michie, D.; Spiegelhalter, D. J.; Taylor, C. C. (1994). "Machine Learning, Neural and Statistical Classification". Ellis Horwood Series in Artificial Intelligence. Bibcode:1994mlns.book…..M.
  50. ^ Zhang, Jun; Zhan, Zhi-hui; Lin, Ying; Chen, Ni; Gong, Yue-jiao; Zhong, Jing-hui; Chung, Henry S.H.; Li, Yun; Shi, Yu-hui (2011). "Evolutionary Computation Meets Machine Learning: A Survey" (PDF). Computational Intelligence Magazine. 6 (4): 68–75. doi:10.1109/mci.2011.942584.
  51. ^ "BelKor Home Page" research.att.com
  52. ^ "The Netflix Tech Blog: Netflix Recommendations: Beyond the 5 stars (Part 1)". 2012-04-06. Récupéré 8 August 2015.
  53. ^ Scott Patterson (13 July 2010). "Letting the Machines Decide". Le journal de Wall Street. Récupéré 24 June 2018.
  54. ^ Vinod Khosla (January 10, 2012). "Do We Need Doctors or Algorithms?". Tech Crunch.
  55. ^ When A Machine Learning Algorithm Studied Fine Art Paintings, It Saw Things Art Historians Had Never Noticed, The Physics at ArXiv blog
  56. ^ Vincent, James (2019-04-10). "The first AI-generated textbook shows what robot writers are actually good at". Le bord. Récupéré 2019-05-05.
  57. ^ "Why Machine Learning Models Often Fail to Learn: QuickTake Q&A". Bloomberg.com. 2016-11-10. Récupéré 2017-04-10.
  58. ^ "The First Wave of Corporate AI Is Doomed to Fail". revue de Harvard business. 2017-04-18. Récupéré 2018-08-20.
  59. ^ "Why the A.I. euphoria is doomed to fail". VentureBeat. 2016-09-18. Récupéré 2018-08-20.
  60. ^ "9 Reasons why your machine learning project will fail". www.kdnuggets.com. Récupéré 2018-08-20.
  61. ^ "Why Uber's self-driving car killed a pedestrian". L'économiste. Récupéré 2018-08-20.
  62. ^ "IBM's Watson recommended 'unsafe and incorrect' cancer treatments – STAT". STAT. 2018-07-25. Récupéré 2018-08-21.
  63. ^ Hernandez, Daniela; Greenwald, Ted (2018-08-11). "IBM Has a Watson Dilemma". le journal Wall Street. ISSN 0099-9660. Récupéré 2018-08-21.
  64. ^ Garcia, Megan (2016). "Racist in the Machine". World Policy Journal. 33 (4): 111–117. doi:10.1215/07402775-3813015. ISSN 0740-2775.
  65. ^ Caliskan, Aylin; Bryson, Joanna J.; Narayanan, Arvind (2017-04-14). "Semantics derived automatically from language corpora contain human-like biases". Science. 356 (6334): 183–186. arXiv:1608.07187. Bibcode:2017Sci…356..183C. doi:10.1126/science.aal4230. ISSN 0036-8075. PMID 28408601.
  66. ^ Wang, Xinan; Dasgupta, Sanjoy (2016), Lee, D. D.; Sugiyama, M.; Luxburg, U. V.; Guyon, I. (eds.), "An algorithm for L1 nearest neighbor search via monotonic embedding" (PDF), Advances in Neural Information Processing Systems 29, Curran Associates, Inc., pp. 983–991, récupéré 2018-08-20
  67. ^ "Machine Bias". ProPublica. Julia Angwin, Jeff Larson, Lauren Kirchner, Surya Mattu. 2016-05-23. Récupéré 2018-08-20.CS1 maint: others (link)
  68. ^ "Opinion | When an Algorithm Helps Send You to Prison". New York Times. Récupéré 2018-08-20.
  69. ^ "Google apologises for racist blunder". BBC News. 2015-07-01. Récupéré 2018-08-20.
  70. ^ "Google 'fixed' its racist algorithm by removing gorillas from its image-labeling tech". Le bord. Récupéré 2018-08-20.
  71. ^ "Opinion | Artificial Intelligence's White Guy Problem". New York Times. Récupéré 2018-08-20.
  72. ^ Metz, Rachel. "Why Microsoft's teen chatbot, Tay, said lots of awful things online". Examen de la technologie MIT. Récupéré 2018-08-20.
  73. ^ Simonite, Tom. "Microsoft says its racist chatbot illustrates how AI isn't adaptable enough to help most businesses". Examen de la technologie MIT. Récupéré 2018-08-20.
  74. ^ Hempel, Jessi (2018-11-13). "Fei-Fei Li's Quest to Make Machines Better for Humanity". Filaire. ISSN 1059-1028. Récupéré 2019-02-17.
  75. ^ Kohavi, Ron (1995). "A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection" (PDF). International Joint Conference on Artificial Intelligence.
  76. ^ Pontius, Robert Gilmore; Si, Kangping (2014). "The total operating characteristic to measure diagnostic ability for multiple thresholds". International Journal of Geographical Information Science. 28 (3): 570–583. doi:10.1080/13658816.2013.862623.
  77. ^ Bostrom, Nick (2011). "The Ethics of Artificial Intelligence" (PDF). Récupéré 11 April 2016.
  78. ^ Edionwe, Tolulope. "The fight against racist algorithms". The Outline. Récupéré 17 novembre 2017.
  79. ^ Jeffries, Adrianne. "Machine learning is racist because the internet is racist". The Outline. Récupéré 17 novembre 2017.
  80. ^ Narayanan, Arvind (August 24, 2016). "Language necessarily contains human biases, and so will machines trained on language corpora". Freedom to Tinker.
  81. ^ Char, D. S.; Shah, N. H.; Magnus, D. (2018). "Implementing Machine Learning in Health Care—Addressing Ethical Challenges". New England Journal of Medicine. 378 (11): 981–983. doi:10.1056/nejmp1714229. PMC 5962261. PMID 29539284.

Lectures complémentaires[[[[modifier]

  • Nils J. Nilsson, Introduction to Machine Learning.
  • Trevor Hastie, Robert Tibshirani and Jerome H. Friedman (2001). The Elements of Statistical Learning, Springer. ISBN 0-387-95284-5.
  • Pedro Domingos (September 2015), The Master Algorithm, Basic Books, ISBN 978-0-465-06570-7
  • Ian H. Witten and Eibe Frank (2011). Data Mining: Practical machine learning tools and techniques Morgan Kaufmann, 664pp., ISBN 978-0-12-374856-0.
  • Ethem Alpaydin (2004). Introduction to Machine Learning, MIT Press, ISBN 978-0-262-01243-0.
  • David J. C. MacKay. Information Theory, Inference, and Learning Algorithms Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1
  • Richard O. Duda, Peter E. Hart, David G. Stork (2001) Pattern classification (2nd edition), Wiley, New York, ISBN 0-471-05669-3.
  • Christopher Bishop (1995). Neural Networks for Pattern Recognition, Oxford University Press. ISBN 0-19-853864-2.
  • Stuart Russell & Peter Norvig, (2009). Artificial Intelligence – A Modern Approach. Pearson, ISBN 9789332543515.
  • Ray Solomonoff, An Inductive Inference Machine, IRE Convention Record, Section on Information Theory, Part 2, pp., 56–62, 1957.
  • Ray Solomonoff, An Inductive Inference Machine A privately circulated report from the 1956 Dartmouth Summer Research Conference on AI.
  • Artificial Intelligence: A Modern Approach (3rd Edition)

Liens externes[[[[modifier]


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *