REPAS : Responsabilité estimée par apprentissage statistique - Rapport final

Cédric Garcia; Vivian Viallon; Liacine Bouaoun; Jean-Louis Martin

Résumé

Responsibility analysis makes it possible to estimate crash risk factors from crash data only. One necessary condition to achieve this objective is to dispose of a reliable responsibility assessment. The aim of the present study was to predict expert responsibility attribution (considered as gold-standard) from crash data routinely recorded by the police. The final objective was to estimate driver responsibility in crashes according to a data-driven process with explicit rules. Driver responsibility was attributed by experts in the light of all information contained in the police reports, including accident diagrams and photographs for a sample of 5,000 injury crashes that occurred in France in 2011. This expert responsibility was transformed into a binary variable (1 if totally or rather responsible, 0 if totally or rather not responsible). Explanatory variables were found in the database which yearly includes computerized information from police reports for all of France. As potential predictors of expert attribution, we considered variables referring to inappropriate actions, such as driving the wrong way, speeding, failure to give way, making a half-turn or overtaking, etc. We also included as potential predictors some variables referring to external conditions at the time of the accident such as weather or road condition. As the set of explanatory variables could vary according to the type of accident, the three most frequent accident configurations were considered separately: (1) accident involving only motor vehicles, 2 or more; (2) accident involving a motor vehicle and a pedestrian or a cyclist; (3) accident involving only 1 motor vehicle. Three different statistical methods for each accident configuration were implemented to predict expert responsibility attribution: logistic regression with L1 penalty, random forests, and boosting. After cross-validation for logistic regression and boosting and out-of-bag estimation for random forests, the three statistical methods showed similar performance in terms of accuracy, sensitivity, specificity and reliability for accident configurations 1 and 2. We therefore chose logistic regression, which is suitable for predictions based on a risk/prediction score. The prediction score was also validated by estimating and comparing odds ratios (ORs) obtained for certain risk factors, using the predictions and expert responsibility assessments. The ORs for predictions and expert attributions were very close, except in case of high blood alcohol content, where they were lower using predictions. Based on expert decisions for a fairly large number of police accident reports, we constructed a score to assess responsibility for drivers and riders in accidents involving one or more motor vehicles, or involving a cyclist or pedestrian. The score could directly be applicable to French police data. The methodology could be adapted for other police data, and R scripts are available from the authors upon request. Further work is needed to validate this responsibility assessment, notably using similar police data such as those in the European CARE database.

L'analyse de responsabilité permet d'estimer les facteurs de risque d'accident à partir des données d'accident uniquement. Une condition nécessaire pour atteindre cet objectif est de disposer d'une évaluation fiable de la responsabilité. L'objectif de la présente étude était de prédire l'attribution de la responsabilité des experts (considérée comme l'étalon-or) à partir des données d'accidents régulièrement enregistrées par la police. L'objectif final était d'estimer la responsabilité du conducteur en cas d'accident selon un processus guidé par des données et des règles explicites. La responsabilité du conducteur a été attribuée par les experts à la lumière de l'ensemble des informations contenues dans les rapports de police, y compris les schémas d'accidents et les photographies pour un échantillon de 5 000 accidents corporels survenus en France en 2011. Cette responsabilité d'expert a été transformée en variable binaire (1 si totalement ou plutôt responsable, 0 si totalement ou plutôt non responsable). Des variables explicatives ont été trouvées dans la base de données qui inclut chaque année des informations informatisées issues des rapports de police pour l'ensemble de la France. En tant que prédicteurs potentiels de l'attribution par des experts, nous avons pris en compte des variables se référant à des actions inappropriées, telles que conduire dans le mauvais sens, excès de vitesse, ne pas céder le passage, faire un demi-tour ou un dépassement, etc. Nous avons également inclus comme prédicteurs potentiels certaines variables se rapportant aux conditions externes au moment de l'accident, comme les conditions météorologiques ou l'état de la route. L'ensemble des variables explicatives pouvant varier selon le type d'accident, les trois configurations d'accident les plus fréquentes ont été considérées séparément : (1) accident impliquant uniquement des véhicules à moteur, 2 ou plus ; (2) accident impliquant un véhicule à moteur et un piéton ou un cycliste ; (3) accident impliquant un seul véhicule à moteur. Trois méthodes statistiques différentes ont été mises en oeuvre pour chaque configuration d'accident afin de prédire l'attribution de la responsabilité des experts : régression logistique avec pénalité L1, forêts aléatoires et boosting. Après validation croisée pour la régression logistique et le boosting, et l'estimation "out-of-bag" pour les forêts aléatoires, les trois méthodes statistiques ont montré des performances similaires en termes de précision, de sensibilité, de spécificité et de fiabilité pour les configurations 1 et 2 des accidents. Nous avons donc choisi la régression logistique, qui convient aux prédictions basées sur un score risque/prévision. Le score de prédiction a également été validé en estimant et en comparant les odds-ratios (OR) obtenus pour certains facteurs de risque, en utilisant les prédictions et les évaluations de responsabilité des experts. Les ORs pour les prédictions et les attributions d'experts étaient très proches, sauf en cas d'alcoolémie élevée, où ils étaient plus faibles en utilisant les prédictions. En nous fondant sur les décisions d'experts d'un assez grand nombre de rapports d'accident de la police, nous avons établi un score pour évaluer la responsabilité des conducteurs et des conducteurs dans les accidents impliquant un ou plusieurs véhicules automobiles, un cycliste ou un piéton. Le score pourrait être directement applicable aux données des forces de l'ordre françaises. La méthodologie pourrait être adaptée à d'autres données policières, et des scripts R sont disponibles sur demande auprès des auteurs. Des travaux supplémentaires sont nécessaires pour valider cette évaluation de la responsabilité, notamment en utilisant des données policières similaires telles que celles de la base de données européenne CARE.

HAL-LARA

REPAS : Responsabilité estimée par apprentissage statistique - Rapport final

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager