[ad_1]
L’apprentissage par renforcement donne au logiciel une « récompense » définie d’une manière ou d’une autre et permet au logiciel de déterminer comment maximiser la récompense. Cette approche a produit d’excellents résultats, tels que la création d’agents logiciels qui battent les humains à des jeux comme les échecs et le go, ou la création de nouveaux modèles de réacteurs à fusion nucléaire.
Cependant, nous voudrions peut-être attendre pour rendre les agents d’apprentissage par renforcement trop flexibles et efficaces.
Le problème de l’apprentissage par renforcement
Ce que nous appelons aujourd’hui le problème de l’apprentissage par renforcement a été envisagé pour la première fois en 1933 par le pathologiste William Thompson. Il s’est demandé : si j’ai deux traitements non testés et une population de patients, comment dois-je assigner les traitements successivement pour guérir le plus de patients ?
Plus généralement, le problème de l’apprentissage par renforcement concerne la façon de planifier vos actions pour mieux accumuler les récompenses sur le long terme.
Le problème est que, pour commencer, vous ne savez pas comment vos actions affectent les récompenses, mais au fil du temps, vous pouvez observer la dépendance. Pour Thompson, une action était le choix d’un traitement, et une récompense correspondait à la guérison d’un patient.
Avec l’avènement des ordinateurs, les informaticiens ont commencé à essayer d’écrire des algorithmes pour résoudre le problème de l’apprentissage par renforcement dans des contextes généraux.
L’espoir est le suivant : si « l’agent d’apprentissage par renforcement » artificiel n’obtient une récompense que lorsqu’il fait ce que nous voulons, alors les actions de maximisation de la récompense qu’il apprend accompliront ce que nous voulons.
Malgré quelques succès, le problème général est toujours très difficile. Demandez à un praticien de l’apprentissage par renforcement d’entraîner un robot à s’occuper d’un jardin botanique ou de convaincre un humain qu’il a tort, et vous risquez de rire.
Cependant, à mesure que les systèmes d’apprentissage par renforcement deviennent plus puissants, ils sont susceptibles de commencer à agir contre les intérêts humains. Et pas parce que des opérateurs d’apprentissage par renforcement maléfiques ou insensés leur donneraient les mauvaises récompenses au mauvais moment.
Nous avons soutenu que tout système d’apprentissage par renforcement suffisamment puissant, s’il satisfait à une poignée d’hypothèses plausibles, est susceptible de se tromper. Pour comprendre pourquoi, commençons par une version très simple d’un système d’apprentissage par renforcement.
Supposons que nous ayons une boîte magique qui indique à quel point le monde est bon sous la forme d’un nombre compris entre 0 et 1. Maintenant, nous montrons ce nombre à un agent d’apprentissage par renforcement avec une caméra et demandons à l’agent de choisir des actions pour maximiser le nombre.
Pour choisir des actions qui maximiseront ses récompenses, l’agent doit avoir une idée de la façon dont ses actions affectent ses récompenses (et ses observations).
Une fois que cela démarre, l’agent doit se rendre compte que les récompenses passées ont toujours correspondu aux chiffres affichés par la case. Il devrait également se rendre compte que les récompenses passées correspondaient aux chiffres que sa caméra a vus. Alors, les futures récompenses correspondront-elles au nombre affiché sur la boîte ou au nombre que la caméra voit ?
Si l’agent n’a pas de fortes convictions innées sur les détails « mineurs » du monde, l’agent doit considérer les deux possibilités comme plausibles. Et si un agent suffisamment avancé est rationnel, il devrait tester les deux possibilités, si cela peut se faire sans risquer beaucoup de récompense. Cela peut commencer à ressembler à beaucoup d’hypothèses, mais notez à quel point chacune est plausible.
Pour tester ces deux possibilités, l’agent devrait faire une expérience en organisant une circonstance où la caméra a vu un numéro différent de celui sur la boîte, en mettant, par exemple, un morceau de papier entre les deux.
Si l’agent fait cela, il verra réellement le numéro sur le morceau de papier, il se souviendra d’avoir reçu une récompense égale à ce que la caméra a vu, et différente de ce qui était sur la boîte, donc « les récompenses passées correspondent au numéro sur la boîte » ne sera plus vrai.
À ce stade, l’agent se concentrerait sur la maximisation de l’attente du nombre que sa caméra voit. Bien sûr, ce n’est qu’un résumé approximatif d’une discussion plus approfondie.
Dans l’article, nous utilisons cet exemple de « boîte magique » pour introduire des concepts importants, mais le comportement de l’agent se généralise à d’autres paramètres. Nous soutenons que, sous réserve d’une poignée d’hypothèses plausibles, tout agent d’apprentissage par renforcement qui peut intervenir dans sa propre rétroaction (dans ce cas, le nombre qu’il voit) subira le même défaut.
Mais pourquoi un tel agent d’apprentissage par renforcement nous mettrait-il en danger ?
L’agent ne cessera jamais d’essayer d’augmenter la probabilité que la caméra voie un 1 pour toujours. Plus d’énergie peut toujours être utilisée pour réduire le risque que quelque chose endommage la caméra – astéroïdes, rayons cosmiques ou ingérence humaine.
Cela nous mettrait en concurrence avec un agent extrêmement avancé pour chaque joule d’énergie utilisable sur Terre. L’agent voudrait tout utiliser pour sécuriser une forteresse autour de sa caméra.
En supposant qu’il soit possible pour un agent d’acquérir autant de pouvoir, et en supposant que des agents suffisamment avancés battraient les humains dans des compétitions en tête-à-tête, nous constatons qu’en présence d’un agent d’apprentissage par renforcement suffisamment avancé, il n’y aurait pas d’énergie disponible pour nous pour survivre.
Que devons-nous faire à ce sujet? Nous aimerions que d’autres chercheurs interviennent ici. Les chercheurs techniques devraient essayer de concevoir des agents avancés susceptibles de violer les hypothèses que nous formulons. Les décideurs politiques devraient réfléchir à la manière dont la législation pourrait empêcher la création de tels agents.
Peut-être pourrions-nous interdire les agents artificiels qui planifient sur le long terme avec des calculs intensifs dans des environnements qui incluent des humains. Et les militaires doivent comprendre qu’ils ne peuvent s’attendre à ce qu’eux-mêmes ou leurs adversaires réussissent à militariser une telle technologie ; les armes doivent être destructrices et dirigeables, pas seulement destructrices.
Il y a assez peu d’acteurs essayant de créer un apprentissage par renforcement aussi avancé qu’ils pourraient peut-être être persuadés de suivre des directions plus sûres.
[ad_2]
Source link -41