Microsoft Research crée un système capable de générer automatiquement des sous-titres "intelligents"

Table des matières:

En quoi consiste

Vous êtes sûrement tombé sur une légende confuse, incorrecte ou qui en dit peu sur l'image à laquelle elle se réfère ; et il est même possible que, si vous vous consacrez à la publication de vos propres articles, vous trouviez le plus fastidieux de remplir cette section. Eh bien, les gens de Redmond ont créé un outil qui vise à vous faciliter la tâche.

Un ouvrage publié par Microsoft Research qui se décrit comme un "système de génération de sous-titres" capable d'imiter les caractéristiques narratives du langage humain, c'est-à-dire une technologie capable de décrire des captures d'écran comme s'il s'agissait de l'un d'entre nous, avec son contexte correspondant.Quelque chose sur lequel des entreprises comme Facebook, Microsoft et Google travaillent depuis un certain temps, mais cette fois, cela dépasse les attentes.

En quoi consiste

Il s'est bien amusé

De cette façon, le système a même la capacité de raconter une histoire complète à partir de plusieurs images, en la décrivant et en la racontant comme si c'était un livre. Un utilitaire qui, selon les experts, pourrait finir par devenir une fonctionnalité apportant une touche plus humaine à certaines applications, des applications de reconnaissance vocale, générant automatiquement des descriptions dans d'autres domaines et bien plus encore.

Et le fait est que l'outil ne se limite pas à dire brièvement ce qu'il « voit », mais fournit plutôt une vision plus large contexte de la situation qui se reflète dans l'image, réalisant un "contexte narratif et un style de narration unique", a expliqué Frank Ferraro, l'un des auteurs de cet ouvrage.Pour nous mettre en situation, il nous donne un exemple

Sa mère était fière de lui

Ainsi, nous proposons le cas suivant : « Imaginons que nous ayons un album photo de quelques amis qui ont fêté un anniversaire dans un Pub. Certaines des premières images montrent des gens qui commandent de la bière et la boivent, tandis que les dernières montrent quelqu'un qui dort sur un canapé », commente-t-il.

Un système conventionnel "pourrait simplement indiquer quelque chose comme une personne allongée sur un canapé, alors que notre système pourrait inclure qu'elle est probablement dans cette situation parce qu'elle est ivre après avoir bu quelques verres". Un ajout qui apporte compréhension et une certaine charge émotionnelle qui se reflète également à travers les images et les légendes des photos incluses dans cet article.

Via | Examen de la technologie MIT

Dans Xataka Windows | Microsoft lance une application qui détermine la race de votre chien

Table des matières:

En quoi consiste

Le choix des éditeurs