Le milieu financier est de plus en plus concurrentiel, les banques n’hésitent pas à investir en masse. La bourse de Paris a déménagé ses serveurs à Londres après que les traders se sont plaints des milli secondes perdues dans les échanges de trading à haute fréquence.1 Les acteurs de la finance sont donc constamment contraints d’évoluer pour conserver une part du marché !

« Renaissance Technologies », un des fonds d’investissement les plus rentables (35% par an de rendement annuel), et « CFM », un important fonds d’investissement français, l’ont bien compris et font partie des sociétés bouleversant les codes de la finance. Les fonds d’investissement, moins régulés que les établissements bancaires et plus opaques, ont tendance à avoir des stratégies plus agressives pour augmenter leurs profits.

Renaissance Technologies, fondé par James Simon, un mathématicien américain renommé, emploie principalement des mathématiciens, des physiciens, des spécialistes des signaux et des statisticiens sans qu’une expérience en finance ne leur soit demandée.2

CFM a misé quant à lui sur l’analyse des données en masse (3 tétras bytes de données par jour utilisés par 1500 serveurs). La moitié de l’équipe est composée de Data Scientists qui développent des modèles pour analyser ces données. CFM investit aussi dans la recherche pour continuer à miser sur l’amélioration.3

Qu’est-ce que la Data Science et comment est-elle utilisée dans le secteur financier ?

La Data Science est la science de l’analyse des données. Elle aide à mettre en évidence les relations pouvant exister entre les différentes données pour en tirer une information statistique4 utilisable en particulier dans le cadre de la modélisation ou de prédictions de comportements. Le Data Scientist va nettoyer, analyser et prédire de potentiels résultats par le biais des modèles qu’il établit.

En finance, un trader va investir dans une action quand son coût est bas puis la vendre à un prix plus haut pour obtenir un bénéfice. Le rôle du trader est donc de prédire une variable, cette variable étant le cours d’une action. Le trader va essayer d’anticiper, à partir des informations qu’il détient, si investir est rentable ou pas. Les méthodes actuelles comme ARIMA utilisent le prix actuel et passé d’une action pour tenter de déterminer son prix futur. D’autres, comme GARCH, utilisent la volatilité de l’action.

Mais alors, quelle différence entre un Data Scientist et un trader ?

La différence porte principalement sur les modèles utilisés et sur le type des données. Par exemple, l’analyse d’images est un des aspects de la Data Science de plus en plus prisé. Un système peut facilement être entrainé à reconnaitre tout type d’image afin de caractériser leur contenu. Les Data Scientist peuvent dès lors utiliser des images comme source d’informations sur une entreprise et son activité.

Ces photos satellites, par exemple, sont exploitées pour prévoir les dates de récolte des champs de blé aux Etats-Unis et permettent ainsi de prédire le cours de cette céréale sur le marché des produits agricoles. Ces images proviennent du programme Sentinel 25 pouvant fournir un tétra byte de données par jour. Le même type d’analyses peut aussi être appliqué pour analyser la quantité de liquide dans les silos à pétrole et ainsi estimer la demande.6

L’analyse des sentiments, effectuée sur la base de commentaires d’utilisateurs et d’articles médiatiques, peut aussi être utilisée pour prédire le prix d’une action. Il est possible de mesurer la couverture médiatique d’une entreprise particulière. Le cours des actions des entreprises ayant récemment fait l’objet d’une attention médiatique anormale peut être relativement surévalué, quelle que soit la direction de l’information.7

Les Data Scientists sont formés à utiliser des modèles prédictifs dénommés réseaux de neurones, Lasso ou SVM par exemple, pour tenter de prévoir la valeur d’une donnée en utilisant d’autres données issues du Big Data. Ces modèles prédictifs ont été créés pour être utilisé sur des volumes importants de données. Cette pratique s’appelle le Machine Learning. Il est par exemple possible de tenter de prédire le prix d’une action ou d’expliquer le profit d’une entreprise à partir des données macroéconomiques du pays, du nombre de recherches effectuées sur le web concernant cette entreprise, en croisant avec des données financières portant sur des entreprises concurrentes. Ces modèles, une fois intégrés à un système d’information, peuvent analyser et prédire les données en temps réel.

Les limites

8

Une des limites de la Data Science en finance est que les méthodes traditionnelles de prévision (ARIMA etc.) sont plus efficaces que les méthodes dites de Machine Learning.9 Un des défauts de ces dernières est l’explicabilité des modèles : les résultats peuvent être corrects sans que le Data Scientist puisse comprendre et expliquer comment le modèle trouve ces résultats. Les banques, soumises à beaucoup plus de régulations que les fonds d’investissement, ne peuvent se permettre de placer des actifs via des modèles qu’ils ne comprennent pas.

Un autre problème peut aussi provenir de la présence de biais dans les données. Le modèle peut prendre en compte des données qui ont une ressemblance avec le cours d’une action sans que ces données n’aient un réel impact sur ce cours.

Par exemple, il a été possible d’expliquer le prix de l’action du S&P 500 (indice boursier basé sur 500 grandes sociétés américaines) en utilisant la population de moutons au Bangladesh durant une certaine période.10 Cette explication n’a été valable que sur une durée limitée où les chiffres correspondaient et montre qu’une rigoureuse sélection des données doit être appliquée avant d’utiliser un modèle. En effet, dans certains cas les Data Scientists, par leur manque d’expérience des métiers de la finance, pourraient être trompés par un modèle. Les traders, eux, ont l’expérience et les capacités pour comprendre ce qui doit être utilisé dans la prédiction d’une variable financière.

Le nettoyage des données est aussi extrêmement complexe et peut représenter 70% du travail d’un Data Scientist pour obtenir un jeu de données utilisable. La Data Science nécessite en effet beaucoup de données et la fiabilité et la précision de celles-ci représentent un enjeu important.

Force est de constater qu’aujourd’hui, les banques et les institutions financières peuvent facilement mobiliser une équipe de Data Scientists, mais que bon nombre d’entre elles ne savent pas exactement comment les exploiter au mieux. Pour relever le défis, les Data Scientists dans des établissements bancaires devont être en mesure d’évoluer et de s’adapter aux changements. S’ils veulent s’assurer une place dans la finance, ils devront investir dans l’apprentissage de nouveaux algorithmes tout en continuant à utiliser les compétences techniques de base et surtout développer leur connaissance du secteur financier.

C’est à cette condition seulement, que la data science deviendra peut être un jour la norme en finance.11

Par Louis Murat, consultant chez BI consulting

Références :
1 : http://leplus.nouvelobs.com/contribution/1191975-le-trading-haute-frequence-une-methode-de-speculation-ultra-rapide-et-ultra-dangereuse.html
2 : https://www.rentec.com/Careers.action
3 : https://www.cfm.fr/expertise/
4 : https://fr.wikipedia.org/wiki/Analyse_des_donn%C3%A9es
5 : https://www.skywatch.co/datasets#sentinel-2
6 : https://www.bloomberg.com/news/features/2015-07-08/satellite-images-show-economies-growing-and-shrinking-in-real-time
7 : http://www.mktmediastats.com/products
8 : https://cdn.andertoons.com/img/toons/cartoon6826.png
9 : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0194889
10 : Stupid Data Miner Tricks: Overfitting the S&P 500 Leinweber (2007)
11 : https://news.efinancialcareers.com/fr-en/284557/data-science-big-data-scientists-wall-street

Article
Précédent
Article
Suivant