La puissance de l'IA multimodale : prédire la valeur d'une propriété avec des images, la position géographique et du texte

Nous prenons de meilleures décisions lorsque nous sommes mieux informés, et il est utile d'avoir des perspectives à partir de plusieurs types de données. Par exemple, lorsqu'on souhaite réserver un hôtel ou une maison de vacances, nous ne nous contentons pas d'examiner les informations de base telles que le prix, la disponibilité et le nombre de lits. Nous souhaitons aussi consulter un contenu plus riche, tel que des photos des chambres, des avis d'anciens clients et des cartes de l'emplacement environnant. Nous prenons en compte toutes ces données pour prendre la meilleure décision possible.
Les modèles de Machine Learning peuvent également prendre de meilleures décisions à partir de sources de données plus riches et variées. Un modèle de prédiction de prix d'une propriété fondé sur les données tabulaires avec des caractéristiques de superficie, d'année de construction, de nombre de pièces, peuvent être améliorées avec un contenu plus diversifié tel que des images des façades des maisons, leur position géographique ou même une description détaillée.
Les plates-formes d'IA doivent permettre aux utilisateurs d'utiliser facilement tous leurs types de données quelle que soit leur nature dans le même environnement, en mélangeant données tabulaires traditionnelles avec du texte, des images, etc., le tout en même temps. Cette approche combine des concepts de machine learning et de computer vision pour débloquer de nouveaux cas d'utilisation, offrir de nouvelles perspectives aux modèles existants et permettre l'innovation en IA comme jamais auparavant.