Séminaires : Biostatistiques



Organisateur
 
Daniel Commenges, Inserm U897 (Equipe Biostatistique)
 
Financement
 
SFR Santé Publique - Société (ex IFR 99)
Centre de Recherche Inserm U897 ;
Institut de Santé Publique, d'Épidémiologie et de Développement, ISPED .
 
Coordinatrice

 
Marta Avalos
Tél : 33 (0)5 57 57 15 34
Mél : Formulaire de contact
 


 
Le séminaire de Biostatistique de Bordeaux a lieu le 3ème ou le 4ème mardi de chaque mois à 14H à l’Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED),Université Victor Segalen Bordeaux 2, 146 rue Léo Saignat, Bordeaux.

Ce séminaire s’adresse aux chercheurs en statistique intéressés par les développements récents et leurs aspects méthodologiques ainsi qu’aux praticiens utilisant des méthodes statistiques dans le domaine de la santé publique, la biologie, les sciences humaines ...

Ce séminaire prend le relais du séminaire "Statistique et Santé Publique" dans le contexte d'une restructuration de la recherche à l'université de Bordeaux 2 dans le cadre du quadriennale 2011-2014.



Programme 2012

  • Le 29 mai 2012, à 14h en salle ED 32

    Titre : De l'utilisation des Séparateurs à Vaste Marge dans les applications en biologie

    Intervenant(s) :
    Marie Szafranski (MCU, laboratoire IBISC, Université d'Évry Val d'Essonne).

    Résumé :
    Les Séparateurs à Vaste Marge (Support Vector Machine, SVM), popularisés au début des années 90, s'appuient sur une théorie statistique introduite par Vapnik au milieu des années 1970. Le succès de cette méthode repose sur plusieurs aspects, en particulier :
    - la robustesse de la méthode aux données bruitées ;
    - la possibilité de traiter des données de très grandes dimension ;
    - la possibilité de manipuler des données complexes (séquences, graphes, etc.).
    De nombreuses données biologiques présentent ces caractéristiques, c'est donc naturellement que les SVM ont été utilisés dans ce domaine.
    Dans un premier temps, nous nous intéresserons à la méthode et à son fonctionnement. Nous verrons ensuite quels types de problèmes biologiques peuvent être traités par ce biais, en particulier, en montrant des résultats obtenus sur la classification de tumeurs cancéreuses à partir de données d'expressions. Nous verrons également comment il est possible d'étendre les SVM afin de travailler avec un ensemble de données hétérogènes (données d'expressions, interactions protéines-protéines, alignement de séquences, etc.).




  • Le jeudi 21 juin 2012, à 11h en amphi Louis de l'ISPED

    Titre : Bias-reduced and separation-proof conditional logistic regression with small or sparse data sets. Titre provisoire

    Intervenant(s) :
    Georg Heinze (Associate Professor of Clinical Biometrics, Center for Medical Statistics, Informatics and Intelligent Systems, Medical University of Vienna).

    Résumé :






Archives 2012     Voir les archives

  • Le 12 avril 2012, à 11h en salle 5 de l'ISPED

    Titre : Modèle de régression pour l'incidence cumulée quand des causes de décès sont manquantes

    Intervenant(s) :
    Aurélien Latouche (Professeur, Equipe méthodes statistiques de data-mining et apprentissage, Centre d’Etude et De Recherche en Informatique et Communication, CNAM, Paris).

    Résumé :
    Competing risks arise in survival analysis when patients may fail from several causes. Regression strategies to determine the effects of prognostic factors on crude survival quantities often assume that the cause of failure is known for all patients, but this is seldom the case. Excluding patients with a missing cause may lead to biased estimates. Some authors have addressed the problem of modeling the cause-specific hazards in this setting, but little attention has been given to direct modeling of the cumulative incidence function, defined as the probability of the event by a given time. We derived a class of regression models for this function in the missing cause setting, encompassing key models such as the Fine and Gray and additive models, by proposing two extensions of Andersen-Klein pseudo-value approach. The first extension is based on inverse probability weighting and the second on multiple imputation. Variance estimation and asymptotic properties were considered and small-sample performance was evaluated through an extensive simulation study. We analyzed data from an ECOG breast cancer treatment clinical trial to illustrate the practical value of the proposed methods.



  • Le 27 mars 2012, à 14h en salle 5 de l'ISPED

    Titre : The 40 years of the Cox model and its role in the development of the dynamic regression models for survival analysis and reliability

    Intervenant(s) :
    Mikhail Nikulin (Professeur, Institut de Mathématiques de Bordeaux et Université Bordeaux Segalen).

    Résumé :
    The proportional hazards (Cox) model was proposed by Sir David Cox 40 years ago. Today the Cox model is the most important model in survival analysis. We discuss the influence of this model on the development of the statistical inference in Biostatistics, Biometrics, Demography, Econometrics, Epidemiology, Gerontology, Finance, Pharmacology, Reliability, Survival analysis, etc.., and on the process of modeling in theses sciences. The role of the Cox model in these sciences one can compare with the influence of the Laws of Newton on the development of mechanics, physics, mathematics, philosophy,... The popularity and the succes of this model is based on the fact that there exist simple semi-parametric estimation procedures which can be used when the form of survival distribution function is not specified. For the Cox model the ratios of hazard rates under different fixed covariates are constant in time. But in practice the hazard rates may approach, go away or even intersect. In some cases it can be the cause of the cross-effect of the survival functions. In such cases more sophisticated models are needed. We consider some new models based on the Cox model. The proportional hazards (Cox) model is generalized by assuming that at any moment the ratio of hazard rates is depending not only on values of time varying covariates but also on degradation and covariate processes. Relations with generalized proportional hazards, frailty, linear transformation, Sedyakin and Degradation models and models with cross-effects of survivals functions are considered. Methods of estimation, based on a modified partial likelihood, and goodness-of-fit tests are discussed. We consider some new accelerated life models with dynamic environment. Using these models we consider survival data for patient with inoperable lung cancer from the Veteran’s Administration Lung Cancer Trials. We consider also the data of the Gastrointestinal Tumor Study Group concerning effects of chemotherapy and radiotherapy on the survival times of gastric cancer patients. These models can be useful in many other clinical trials, for example to study the Stanford Heart Transplant Data. The goal of this study was to assess whether patients receiving transplants survived longer than patients not receiving transplants.



  • Le 31 janvier 2012, à 14h (Salle Mann)

    Titre : Validation des critères de substitution : application au cancer de l'estomac

    Intervenant(s) :
    Xavier Paoletti (Service de Biostatistique, INSERM U900, Institut Curie, Paris).

    Résumé :
    La mesure de la survie globale est le critère principal pour évaluer le bénéfice d'un nouveau traitement en cancérologie. Ce critère est simple à mesurer, objectif mais il est long et couteux à collecter. Une recherche de critères de substitution (ou critères intermédiaires) pour cette évaluation est donc un champ de recherche actif. La validation d'un critère de substitution a plusieurs facettes. Mais au delà du rationnel biologique, il est essentiel de valider statistiquement les critères candidats. Plusieurs approches ont été proposées. Une des plus séduisantes repose sur des mesures d'association entre les deux critères. Ces mesures peuvent se faire au niveau individuel, mais également au niveau de l'étude pour estimer si les conclusions obtenues sur le critère de substitution sont fortement associées aux conclusions sur le critère final. Par exemple, si une mesure de risque relatif est utilisée pour comparer deux traitements, on cherchera à estimer l'association entre les risques relatifs obtenus avec le critère de substitution et le critère final. Cette association ne peut être étudiée sur un seul essai. L'approche méta-analytique est donc nécessaire. Après avoir présenté les grandes lignes de cette approche méta-analytique développée par Marc Buyse, Tomasz Burzykovski, Geert Mollenbergs et collègues de l'université d'Hasselt, je l'illustrerai sur le cancer de l'estomac. Suite aux travaux de Sargent et collègues qui ont montré que le temps avant récidive (DFS) était un bon critère de substitution pour les essais de chimiothérapies adjuvante dans les cancers colo-rectaux, nous nous sommes intéressés à la DFS des traitements du cancer de l'estomac en situation adjuvante et au temps avant progression (PFS) en situation avancée. La méta-analyse sur données individuelles GASTRIC permet d'appliquer l'approche méta-analytique et d'étudier ces différents critères.






Archives 2011     Voir les archives

  • Le 14 décembre 2011 14H (salle ED 29) :

    Titre : Modèles multi-états

    Intervenant(s) :
    Daniel Commenges et Alioum Ahmadou (DR INSERM et Professeur, respectivement, équipe Biostatistique de l'INSERM U897, Université Bordeaux Segalen).

    Résumé :
    Les données essentielles concernant les processus multi-états seront présentées. Cela comprend la définition des intensités de transition, les probabilités de transition, les hypothèses de Markov et semi-Markov. Sur la base du concept probabiliste de processus multi-états on peut construire des modèles statistiques multi-états. Pour construire un modèle multi-état il faut préciser quels sont les états, quelles transitions sont possibles, et quel type d'hypothèses (Markov ou semi-Markov) sont faites. Des modèles pour les intensités de transition doivent être précisés pour tenir compte de variables explicatives. Les approches paramétriques et non paramétriques seront brièvement présentées. Puis les systèmes d'observation seront étudiés: observation en temps continu ou discret, problème de l'indépendance du mécanisme d'observation. Les schémas d'observation discrets donnent lieu à des observations censurées par intervalles. La vraisemblance dans le cas de données censurées par intervalles sera donnée. Les problèmes soulevés par les données censurées par intervalle seront mis en évidence et contrastés avec le cas classique. Il sera montré comment calculer les estimateurs du maximum de vraisemblance à partir des données censurées par intervalle, contrastant les modèles homogènes et non homogènes. Des applications à l'épidémiologie de la maladie d'Alzheimer et du SIDA vont servir à illustrer ces méthodes. Enfin, les programmes disponibles et des logiciels en Fortran ou R pour traiter ces problèmes seront mentionnés.

    Document(s) associé(s) :
    Modèles multi-états



  • Le 22 novembre 2011, à 14h (Salle ED 27B)

    Titre : Forêts aléatoires et sélection de variable. Application en neuroimagerie

    Intervenant(s) :
    Robin Genuer (Maitre de conférences, équipe Biostatistique de l'INSERM U897, Université Bordeaux Segalen).

    Résumé :
    Nous présentons une méthode de sélection de variables basée sur l'algorithme des forêts aléatoires. Les forêts aléatoires, introduites par Léo Breiman en 2001, sont une technique statistique très utilisée dans des problèmes pratiques aussi bien en régression qu'en classification. En plus d'être très performantes en prédiction, les forêts aléatoires calculent un indice d'importance des variables. Basée sur cet indice d'importance, notre procédure de sélection de variables cherche à traiter deux problèmes distincts : trouver toutes les variables reliées à la variable réponse (interprétation) ; et trouver un ensemble de variables suffisant pour prédire la variable réponse (prédiction). Nous illustrons cette procédure sur des données réelles d'IRMf (Imagerie à Résonance Magnétique fonctionnelle) de très grande dimension.



  • Le 18 octobre 2011, à 14h (salle Pous) :

    Titre : Classification (supervisée) basée sur la théorie de la décision bayésienne des aberrations du nombre de copies dans les génomes cancéreux

    Intervenant(s) :
    Chris Holmes (Professeur, département de Statistiques, Université de Oxford, Royaume Uni).

    Résumé :
    I will discuss the problem of discovery and classification of copy-number-aberrations (CNAs) arising in cancer genomes using genome-wide array data. CNAs refer to stretches of DNA, from a few 100 bases to whole chromosomes, that are duplicated or deleted within a cancer cell. CNAs are know to be key drivers of tumorgenesis through the deletion of tumour suppression genes and the duplication of oncogenes. I describe the use of Hidden-Markov-Models (HMMs) for CNA discovery and classification, where the "hidden states" refers to the unknown copy-number at a locus, and the observations are the array data. A key task having fit an HMM to the data is to make predictions on the underlying CNAs. Standard predictions such as the most-probable state sequence or the set of most probable marginal states are sub-optimal. I describe the use of loss functions and decision theory to then provide optimal predictions under computational constraints.



  • Le 27 septembre 2011, à 14h (salle 30) :

    Titre : Modèles hiérarchiques pour la construction de lois a priori induisant des solutions parcimonieuses. Application à l'analyse de signaux d'association génétique.

    Intervenant(s) :
    François Caron (Chargé de recherche, INRIA Bordeaux - Sud-Ouest).

    Résumé :
    Les techniques de sélection de variable sont très populaires auprès des statisticiens du fait du nombre croissant d'applications impliquant des données de grande dimension pour lesquelles on s'attend à ce qu'un faible nombre de prédicteurs soient importants.
    J'explore ici l'utilisation de distributions a priori t généralisée sur les coefficients de régression et son application aux études d'association pangénomique. Pour de faibles degrés de liberté, la distribution t généralisée montre des propriétés de parcimonie avec des caractéristiques intéressantes par rapport à d'autres distributions parcimonieuses classiques. Elle inclut également la distribution Laplace comme cas particulier quand le degré de liberté tend vers l'infini.
    Je vais dans un premier temps m'intéresser à montrer une représentation sous forme de modèle de mélange de la loi t généralisée, permettant de dériver un algorithme EM pour obtenir des estimées du maximum a posteriori.
    Je présenterai ensuite une analyse bayésienne complète du problème. On s'intéressera particulièrement à des représentations graphiques des lois a posteriori en fonction du paramètre d'échelle de la loi a priori afin d'explorer la loi a posteriori pour une complexité variable, allant de modèles très parcimonieux où toutes les distributions sont concentrées autour de zéro, à des distributions plates où les coefficients sont concentrés autour de l'estimateur du maximum de vraisemblance. Les figures ainsi obtenues sont analogues aux figures obtenues pour le lasso en fonction du paramètre de précision. Générer ces lois a posteriori est computationnellement coûteux. On propose ici l'utilisation de méthodes de Monte Carlo séquentielles, parallélisées sur processeur graphique. Travail joint avec Anthony Lee, Arnaud Doucet et Chris Holmes (Univ. Oxford) Référence: A. Lee, F. Caron, A. Doucet, C.C. Holmes. Bayesian Sparsity-Path-Analysis of Genetic Association Signal using Generalized t Priors. To appear in Statistical Applications in Genetics and Molecular Biology, 2011.




  • Le 12 juillet 2011, à 16h dans l'Amphi Louis :

    Titre : Introduction à la randomisation mendélienne - Analyse sur variables instrumentales /Title : Introduction to Mendelian Randomization - Instrumental Variables Analyses

    Intervenant(s) :
    Maria Glymour (Assistant Professeur, Department of Society, Human Development and Health, Harvard School of Public Health, Boston, USA).

    Résumé :
    In this talk I will describe the idea motivating the "Mendelian Randomization" approach to identifying causal effects. Mendelian Randomization is a special case of Instrumental Variables in which genetic information is used as an instrument to estimate the effect of a genetically influenced phenotype on a health outcome. I will use Directed Acyclic Graphs to illustrate the assumptions for Instrumental Variables analyses and examples of violations of these assumptions. Although the assumptions cannot be conclusively established, there are some assessments that may be valuable, depending on the strength of background knowledge in the field, including over-identification tests. These options may improve with the availability of genome wide data for Mendelian Randomization studies. I will also discuss the interpretation of the parameter estimate, in Instrumental Variables analyses in general and Mendelian Randomization studies in particular. To illustrate, we will discuss a few examples of Mendelian Randomization studies and some research areas in which the approach seems especially promising.



  • Le 14 juin 2011, Amphi Louis :

    Titre : Prédiction de proportions de fausses découvertes en tests multiples avec dépendance / Title : Predicting false discovery proportions in dependent multiple testing

    Intervenant(s) :
    Subhashis Ghoshal Professeur, Department of Statistics, North Carolina State University, USA).

    Résumé :
    In the recent years, multiple hypothesis testing has come to the forefront of statistical research, ostensibly in relation to applications in genomics and some other emerging fields. In an earlier work, we proposed a nonparametric mixture of beta model for p-value density under the alternative and putting a Dirichlet process prior on the mixing distribution, and used it to estimate positive false discovery rate. We showed that the resulting Bayes estimates are computable, lead to smaller estimation error compared to classical procedures, and the posterior distribution is consistent under mild conditions. However, the beta distribution does not have nice generalizations in higher dimensions with arbitrary correlation structure. To avoid the problem, we transform p-values through probit link and argue that a multivariate skew-normal mixture model can adequately describe the variations in p-values, preserving some salient features of its distribution. We address identifiability issues and the role of the multivariate mixture model in predicting false discovery proportions in a dependent multiple hypothesis testing scenario. Simulation experiments show that the mixture model predicts false discovery proportion fairly accurately under different dependence scenario. The method is illustrated with an application in a kidney transplant data.



  • Le 8 juin 2011 au matin (heure et salle à préciser) :

    Titre : Test sur une combinaison de scores pour des critères de jugement binaires et ordinaux dans les essais cliniques

    Intervenant(s) :
    John et Anne Whitehead (Professeurs, Département de Mathématiques et Statistiques, Université de Lancaster, UK).

    Résumé :
    The trial of rTPA as a treatment in acute stroke conducted by the National Institute of Neurological Disorders and Stroke was analysed using a novel statistical approach. Instead of choosing just one of the well known scales for assessing recovery from stroke (Barthel Index, modified Rankin, NIH Stroke Scale), the primary analysis was based on a combination of scales. A similar approach has been adopted for the ongoing ICTUS trial in stroke. The responses from the stroke scales are correlated, but each measures different aspects of recovery. When taken together, they have greater power to detect the advantage of a treatment that provides wide ranging benefit than any one of them can achieve alone. In this talk, methods for combining binary and ordinal responses will be presented, and the power and sample size implications of doing so will be described. The suitability of the approach for therapeutic areas other than stroke and its implementation for quantitative and survival endpoints (rather than binary and ordinal) will be discussed.



  • Le 17 mai 2011, Amphi Louis

    Titre : Cognitive change in older persons: the assessment of cognitive decline, its relation to neural pathologies, and determining the potential for intervention to delay or prevent the onset of dementia.

    Intervenant(s) :
    Riccardo Marioni (Post-doctorant, Department of Public Health and Primary Care, Université de Cambridge, Royaume-Uni).

    Résumé :
    Potentially modifiable factors such as education and lifestyle are thought to affect the progression of cognitive decline. This is commonly referred to as cognitive reserve or cognitive lifestyle. This study tested the association between cognitive lifestyle score and cognitive change in a population-based cohort of older persons from five sites across England and Wales. Data came from 13,004 participants of the Medical Research Council Cognitive Function and Ageing Study who were aged 65 years and over. Cognition was assessed at multiple waves over 16 years using the Mini-Mental State Examination. Subjects were grouped into four cognitive states (no impairment, slight impairment, moderate impairment, severe impairment) and cognitive lifestyle score was assessed as a composite measure of education, mid-life occupation, and current social engagement. A multi-state model was used to test the effect of cognitive lifestyle score on cognitive transitions. Hazard ratios for cognitive lifestyle score showed significant differences between those in the upper compared to the lower tertile with higher cognitive lifestyle protecting against transitions from no impairment to slight impairment (0.58, 95% CI (0.45, 0.74)), encouraging recovery from a slightly impaired state back to a non-impaired state (2.93 (1.35, 6.38)) but increasing the risk of transitioning from severe impairment to death (1.28 (1.12, 1.45)). An enhanced cognitive lifestyle protects against cognitive decline, increases cognitive recovery from a slightly impaired cognitive state but accelerates the transition to death from a severely impaired cognitive state.



  • Le 5 avril 2011 à 10h, salle ED 36

    Titre : Expected prediction performance: definition, estimation and decomposition / Performance d'une prédiction : définition, estimation et décomposition.

    Intervenant(s) :
    Thomas A. Gerds (Associate Professor of Biostatistics, Institute of Public Health, University of Copenhagen, Danemark).

    Résumé :




  • Le 29 mars 2011, Amphi Louis

    Titre : Méthodes statistiques pour les données post-génomique.

    Intervenant(s) :
    Philippe Besse (Professeur, équipe Statistique et Probabilités de l'Institut de Mathématiques, UMR CNRS 5219, INSA Toulouse).

    Résumé :
    Le principal défi soulevé par l'analyse de données post-génomiques (transcriptomiques, protéomiques, métabolomiques...) est la prise en compte de leur grande dimension : le nombre p de variables au regard de la taille n des échantillons. La stratégie largement la plus utilisée en routine : tests multiples et correction de Benjamini Hochberg pour la recherche, par exemple, de gènes différentiellement exprimés, pose de nombreux problèmes et n'est pas nécessairement adaptée à l'objectif poursuivi. A la suite de nombreuses comparaisons sur différents projets et jeux de données, l'équipe "biostat" de l'institut de maths s'est plus particulièrement focalisée sur le développement (package mixOmics) et l'utilisation d'une version "sparse" de la régression PLS pour répondre à différentes questions et atteindre différents objectifs : "prévision" plutôt que "explication" et sélection de variable (recherche de "biomarqueurs"), comparaison de deux jeux de données sur les mêmes observations (i.e. transcriptomiques et phénotypiques), régression et / ou discrimination (PLS-DA), graphiques d'aide à l'interprétation... Après une introduction générale des contextes et problèmes posés, une présentation succincte de la "sparse" PLS, plusieurs exemples d'applications seront présentés.



  • Le 01 mars 2011, Amphi Louis

    Titre : Évènements récurrents et risques concurrents.

    Intervenant(s) :
    Jean-Yves Dauxois (Professeur, Laboratoire de Mathématiques, UMR CNRS 6623, Université de Franche Comté).

    Résumé :
    En Statistique des durées de vie, les modèles à risques concurrents permettent de prendre en compte les différentes causes de décès ou de panne et de comparer leurs incidences. Nous présentons dans cet exposé des développements récents obtenus dans ce domaine, avec pour objectif principal une application en biostatistique. Nous considérons en particulier une problématique de risques concurrents pour des récurrences d'infections noesocomiales sur des patients hospitalisés dans un service de réanimation français. Une inférence non paramétrique, estimations et tests, est menée dans ce cadre. Enfin, nous abordons un problème de construction de bandes de confiance pour les fonctions moyennes spécifiques. Nous utilisons pour cela une approche via la notion de vraisemblance empirique. Les résultats théoriques obtenus dans ces travaux (comportements asymptotiques des estimateurs et des statistiques de test) font appel à des techniques de martingales et/ou de processus empiriques. Nous illustrons nos résultats sur le jeu de données réelles et étudions par simulation de Monte Carlo les propriétés de nos estimations sur des échantillons de taille finie.



  • Le 15 février 2011, Salle Pous

    Titre : Seuil optimal d'un critère diagnostique continu issu de mesures longitudinales d'un biomarqueur.

    Intervenant(s) :
    Fabien Subtil (Post-doctorant, Equipe Biostatistique-Santé, UMR CNRS 5558 Biométrie et Biologie Evolutive, Université de Lyon 1)


    Résumé :
    Lorsqu'un biomarqueur est mesuré de façon répétée au cours du suivi de patients, il est d'abord nécessaire d'établir un critère, issu du profil d'évolution longitudinal du marqueur, afin de détecter la survenue d'un événement, ou d'en prédire la gravité. Une méthode de modélisation robuste de données longitudinales est proposée afin de calculer les différents critères pour les patients, et d'en comparer les performances diagnostiques ou pronostiques. Dans un second temps, il faut déterminer un seuil de ce critère quantitatif au dessus ou en dessous duquel le test diagnostique est considéré comme positif. Une méthode bayésienne d'estimation de ce seuil et de son intervalle de crédibilité a été développée. Ce travail a été appliqué au diagnostic de persistance locale de cellules cancéreuses après traitement par ultrasons d'un cancer de la prostate. Ce diagnostic est effectué à partir des mesures répétées d'antigène spécifique de la prostate (PSA), dont le nadir a été retenu, avec différents seuils, comme meilleur critère diagnostique. Ceci permet de n'effectuer des biopsies que lorsqu'il y a de fortes chances qu'elles soient positives.



!! Afficher les séminaires archivés avant 2011 !!





 
 
Partenaires
 
Crédits
 
Plan du site
Labéllisé par :

Inserm  


Membre de :
Aspher  





Dernière mise à jour du site : 12/04/2012

Master IM