Thumbnail image

Publication Des Données De 60 000 Reportages Des JTs De 20H De France 2 Et TF1

Dans cette annĂ©e d’Ă©lection, il peut ĂŞtre utile de rendre public les donnĂ©es de 60 000 reportages des JT de 20H de TF1 et France 2 pour des chercheurs ou des citoyens. La seule condition est de maitriser le format JSON et son exploitation.

Pourquoi les données des JT ?

Le sociologue Jean Baptiste Comby, dans sa thèse “La question climatique”, indique qu’il est “fĂ©cond de placer la focale sociologique sur les discours qui circulent au sein des mĂ©dias gĂ©nĂ©ralistes nationaux”. Il prĂ©cise “si les JT sont un lieu stratĂ©gique d’observation du dĂ©bat public, cela ne signifie pas pour autant qu’ils en offrent un reflet reprĂ©sentatif (…) cependant, nos observations indiquent que les cadrages du problème rĂ©currents dans les JT sont ceux qui circulent le plus et le mieux dans les autres espaces du dĂ©bat public”

Méthodes de récupération de la donnée

En scrappant les textes des pages des JTs de TF1 jusqu’en 2016 et de France 2 jusqu’en 2013 avec ce logiciel libre Ă©crit en Scala.

Avertissement: Les textes des reportages seulement ont été récoltés, mais pas les voix qui sont parfois plus complètes. Pour aller plus loin, ce projet permet de récolter les données venant des voix.

Mise Ă  jour quotidienne

Pour mettre à jour les données un Github Action avec un CRON est utilisée. Les 2 sites sont scrappés avec le code Scala, et les données sont ensuite versionnées par la Github Action.

Données

Les données des JTs sont accessibles librement au format JSON ici et sont classées par media et par jour.

Elles possèdent ce format :

  • title: String,
  • description: String,
  • date: Timestamp,
  • order: Long - ordre dans le JT de france 2
  • presenter: String - exemple David Pujadas
  • authors: List[String] - les journalistes
  • editor: String, - rĂ©dacteur en chef
  • editorDeputy: List[String], rĂ©dacteur adjoint
  • url: String, - url vers le reportage
  • urlTvNews: String, - url vers le JT
  • containsWordGlobalWarming: Boolean, - si le reportage contient le mot rĂ©chauffement, dĂ©règlement ou changement climatique
  • media: String - TF1 ou France 2

Exemple d’exploitation des donnĂ©es

Pour une analyse sur le thème des changements climatiques un site a été fait, il affiche des graphiques rafraîchis chaque jour par la Github Action.

Des graphiques et des tableaux faits à partir des données brutes des JT

Exemple de visuel disponible sur le site du projet fait à partir des données brutes des JT

Egalement une analyse bientôt disponible à la suite de ce post utilise une base de données SQL, Postgres, et un outil de visualisation, Metabase, à faire fonctionner chez vous avec une seule ligne de commande basée sur Docker Compose : https://github.com/polomarcus/television-news-analyser#requirements

Remontez vos problèmes d’accès aux donnĂ©es en me contactant sur twitter ou sur le repo github

Posts in this Series