Séminaires
: Biostatistiques
Organisateur
|
Daniel Commenges, Inserm U897 (Equipe
Biostatistique)
|
Financement
|
SFR Santé Publique - Société (ex IFR 99)
Centre de Recherche
Inserm U897
;
Institut de Santé Publique, d'Épidémiologie et de Développement, ISPED
.
|

Le séminaire de Biostatistique de Bordeaux a lieu le
3ème ou le 4ème mardi de chaque mois à 14H à
l’Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED),Université
Victor Segalen
Bordeaux 2, 146 rue Léo Saignat, Bordeaux.
Ce séminaire s’adresse aux chercheurs en statistique intéressés par les
développements récents et leurs aspects méthodologiques ainsi qu’aux praticiens
utilisant des méthodes statistiques dans le domaine de la santé publique, la
biologie, les sciences humaines ...
Ce séminaire prend le relais du séminaire "Statistique et Santé Publique" dans le
contexte d'une restructuration de la recherche à l'université de Bordeaux 2 dans
le cadre du quadriennale 2011-2014.

Programme
2012
|
|
Le 29 mai 2012, à 14h en salle ED 32
Titre :
De l'utilisation des Séparateurs à Vaste Marge dans les applications en biologie
Intervenant(s) :
Marie Szafranski (MCU, laboratoire IBISC, Université d'Évry Val d'Essonne).
Résumé :
Les Séparateurs à Vaste Marge (Support Vector Machine, SVM), popularisés au début des années 90, s'appuient sur une théorie statistique introduite par Vapnik au milieu des années 1970. Le succès de cette méthode repose sur plusieurs aspects, en particulier : - la robustesse de la méthode aux données bruitées ; - la possibilité de traiter des données de très grandes dimension ; - la possibilité de manipuler des données complexes (séquences, graphes, etc.). De nombreuses données biologiques présentent ces caractéristiques, c'est donc naturellement que les SVM ont été utilisés dans ce domaine. Dans un premier temps, nous nous intéresserons à la méthode et à son fonctionnement. Nous verrons ensuite quels types de problèmes biologiques peuvent être traités par ce biais, en particulier, en montrant des résultats obtenus sur la classification de tumeurs cancéreuses à partir de données d'expressions. Nous verrons également comment il est possible d'étendre les SVM afin de travailler avec un ensemble de données hétérogènes (données d'expressions, interactions protéines-protéines, alignement de séquences, etc.).
|
|
|
|
Le jeudi 21 juin 2012, à 11h en amphi Louis de l'ISPED
Titre :
Bias-reduced and separation-proof conditional logistic regression with small or sparse data sets. Titre provisoire
Intervenant(s) :
Georg Heinze (Associate Professor of Clinical Biometrics, Center for Medical Statistics, Informatics and Intelligent Systems, Medical University of Vienna).
Résumé :
|
|
Archives
2012
Voir les archives
|
|
Le 12 avril 2012, à 11h en salle 5 de l'ISPED
Titre :
Modèle de régression pour l'incidence cumulée quand des causes de décès
sont manquantes
Intervenant(s) :
Aurélien Latouche (Professeur, Equipe méthodes statistiques de data-mining et apprentissage, Centre d’Etude et De Recherche en Informatique et Communication, CNAM, Paris).
Résumé :
Competing risks arise in survival analysis when patients may fail from several causes. Regression strategies to determine the effects of prognostic factors on crude survival quantities often assume that the cause of failure is known for all patients, but this is seldom the case. Excluding patients with a missing cause may lead to biased estimates. Some authors have addressed the problem of modeling the cause-specific hazards in this setting, but little attention has been given to direct modeling of the cumulative incidence function, defined as the probability of the event by a given time. We derived a class of regression models for this function in the missing cause setting, encompassing key models such as the Fine and Gray and additive models, by proposing two extensions of Andersen-Klein pseudo-value approach. The first extension is based on inverse probability weighting and the second on multiple imputation. Variance estimation and asymptotic properties were considered and small-sample performance was evaluated through an extensive simulation study. We analyzed data from an ECOG breast cancer treatment clinical trial to illustrate the practical value of the proposed methods.
|
|
|
|
Le 27 mars 2012, à 14h en salle 5 de l'ISPED
Titre :
The 40 years of the Cox model and its role
in the development of the dynamic regression models for survival analysis and reliability
Intervenant(s) :
Mikhail Nikulin (Professeur, Institut de Mathématiques de Bordeaux et Université Bordeaux Segalen).
Résumé :
The proportional hazards (Cox) model was proposed by Sir David Cox 40 years ago. Today the Cox model is the most important model in survival analysis. We discuss the influence of this model on the development of the statistical inference in Biostatistics, Biometrics, Demography, Econometrics, Epidemiology, Gerontology, Finance, Pharmacology, Reliability, Survival analysis, etc.., and on the process of modeling in theses sciences. The role of the Cox model in these sciences one can compare with the influence of the Laws of Newton on the development of mechanics, physics, mathematics, philosophy,... The popularity and the succes of this model is based on the fact that there exist simple semi-parametric estimation procedures which can be used when the form of survival distribution function is not specified. For the Cox model the ratios of hazard rates under different fixed covariates are constant in time. But in practice the hazard rates may approach, go away or even intersect. In some cases it can be the cause of the cross-effect of the survival functions. In such cases more sophisticated models are needed. We consider some new models based on the Cox model. The proportional hazards (Cox) model is generalized by assuming that at any moment the ratio of hazard rates is depending not only on values of time varying covariates but also on degradation and covariate processes. Relations with generalized proportional hazards, frailty, linear transformation, Sedyakin and Degradation models and models with cross-effects of survivals functions are considered. Methods of estimation, based on a modified partial likelihood, and goodness-of-fit tests are discussed. We consider some new accelerated life models with dynamic environment. Using these models we consider survival data for patient with inoperable lung cancer from the Veteran’s Administration Lung Cancer Trials. We consider also the data of the Gastrointestinal Tumor Study Group concerning effects of chemotherapy and radiotherapy on the survival times of gastric cancer patients. These models can be useful in many other clinical trials, for example to study the Stanford Heart Transplant Data. The goal of this study was to assess whether patients receiving transplants survived longer than patients not receiving transplants.
|
|
|
|
Le 31 janvier 2012, à 14h (Salle Mann)
Titre :
Validation des critères de substitution : application au cancer de l'estomac
Intervenant(s) :
Xavier Paoletti (Service de Biostatistique, INSERM U900, Institut Curie, Paris).
Résumé :
La mesure de la survie globale est le critère principal pour évaluer le bénéfice d'un nouveau traitement en cancérologie. Ce critère est simple à mesurer, objectif mais il est long et couteux à collecter. Une recherche de critères de substitution (ou critères intermédiaires) pour cette évaluation est donc un champ de recherche actif. La validation d'un critère de substitution a plusieurs facettes. Mais au delà du rationnel biologique, il est essentiel de valider statistiquement les critères candidats. Plusieurs approches ont été proposées. Une des plus séduisantes repose sur des mesures d'association entre les deux critères. Ces mesures peuvent se faire au niveau individuel, mais également au niveau de l'étude pour estimer si les conclusions obtenues sur le critère de substitution sont fortement associées aux conclusions sur le critère final. Par exemple, si une mesure de risque relatif est utilisée pour comparer deux traitements, on cherchera à estimer l'association entre les risques relatifs obtenus avec le critère de substitution et le critère final. Cette association ne peut être étudiée sur un seul essai. L'approche méta-analytique est donc nécessaire. Après avoir présenté les grandes lignes de cette approche méta-analytique développée par Marc Buyse, Tomasz Burzykovski, Geert Mollenbergs et collègues de l'université d'Hasselt, je l'illustrerai sur le cancer de l'estomac. Suite aux travaux de Sargent et collègues qui ont montré que le temps avant récidive (DFS) était un bon critère de substitution pour les essais de chimiothérapies adjuvante dans les cancers colo-rectaux, nous nous sommes intéressés à la DFS des traitements du cancer de l'estomac en situation adjuvante et au temps avant progression (PFS) en situation avancée. La méta-analyse sur données individuelles GASTRIC permet d'appliquer l'approche méta-analytique et d'étudier ces différents critères.
|
|
Archives
2011
Voir les archives
|
|
Le 14 décembre 2011 14H (salle ED 29) :
Titre :
Modèles multi-états
Intervenant(s) :
Daniel Commenges et Alioum Ahmadou (DR INSERM et Professeur, respectivement, équipe Biostatistique de l'INSERM U897, Université Bordeaux Segalen).
Résumé :
Les données essentielles concernant les processus multi-états seront présentées. Cela comprend la définition des intensités de transition, les probabilités de transition, les hypothèses de Markov et semi-Markov. Sur la base du concept probabiliste de processus multi-états on peut construire des modèles statistiques multi-états. Pour construire un modèle multi-état il faut préciser quels sont les états, quelles transitions sont possibles, et quel type d'hypothèses (Markov ou semi-Markov) sont faites. Des modèles pour les intensités de transition doivent être précisés pour tenir compte de variables explicatives. Les approches paramétriques et non paramétriques seront brièvement présentées. Puis les systèmes d'observation seront étudiés: observation en temps continu ou discret, problème de l'indépendance du mécanisme d'observation. Les schémas d'observation discrets donnent lieu à des observations censurées par intervalles. La vraisemblance dans le cas de données censurées par intervalles sera donnée. Les problèmes soulevés par les données censurées par intervalle seront mis en évidence et contrastés avec le cas classique. Il sera montré comment calculer les estimateurs du maximum de vraisemblance à partir des données censurées par intervalle, contrastant les modèles homogènes et non homogènes. Des applications à l'épidémiologie de la maladie d'Alzheimer et du SIDA vont servir à illustrer ces méthodes. Enfin, les programmes disponibles et des logiciels en Fortran ou R pour traiter ces problèmes seront mentionnés.
|
|
|
|
Le 22 novembre 2011, à 14h (Salle ED 27B)
Titre :
Forêts aléatoires et sélection de variable. Application en neuroimagerie
Intervenant(s) :
Robin Genuer (Maitre de conférences, équipe Biostatistique de l'INSERM U897, Université Bordeaux Segalen).
Résumé :
Nous présentons une méthode de sélection de variables basée sur l'algorithme des forêts aléatoires. Les forêts aléatoires, introduites par Léo Breiman en 2001, sont une technique statistique très utilisée dans des problèmes pratiques aussi bien en régression qu'en classification. En plus d'être très performantes en prédiction, les forêts aléatoires calculent un indice d'importance des variables. Basée sur cet indice d'importance, notre procédure de sélection de variables cherche à traiter deux problèmes distincts : trouver toutes les variables reliées à la variable réponse (interprétation) ; et trouver un ensemble de variables suffisant pour prédire la variable réponse (prédiction). Nous illustrons cette procédure sur des données réelles d'IRMf (Imagerie à Résonance Magnétique fonctionnelle) de très grande dimension.
|
|
|
|
Le 18 octobre 2011, à 14h (salle Pous) :
Titre :
Classification (supervisée) basée sur la théorie de la décision bayésienne des aberrations du nombre de copies dans les génomes cancéreux
Intervenant(s) :
Chris Holmes (Professeur, département de Statistiques, Université de Oxford, Royaume Uni).
Résumé :
I will discuss the problem of discovery and classification of
copy-number-aberrations (CNAs) arising in cancer genomes using
genome-wide array data. CNAs refer to stretches of DNA, from a few 100
bases to whole chromosomes, that are duplicated or deleted within a
cancer cell. CNAs are know to be key drivers of tumorgenesis through the
deletion of tumour suppression genes and the duplication of oncogenes. I
describe the use of Hidden-Markov-Models (HMMs) for CNA discovery and
classification, where the "hidden states" refers to the unknown
copy-number at a locus, and the observations are the array data. A key
task having fit an HMM to the data is to make predictions on the
underlying CNAs. Standard predictions such as the most-probable state
sequence or the set of most probable marginal states are sub-optimal. I
describe the use of loss functions and decision theory to then provide
optimal predictions under computational constraints.
|
|
|
|
Le 27 septembre 2011, à 14h (salle 30) :
Titre :
Modèles hiérarchiques pour la construction de lois a priori induisant des solutions parcimonieuses. Application à l'analyse de signaux d'association génétique.
Intervenant(s) :
François Caron (Chargé de recherche, INRIA Bordeaux - Sud-Ouest).
Résumé :
Les techniques de sélection de variable sont très populaires auprès des
statisticiens du fait du nombre croissant d'applications impliquant des
données de grande dimension pour lesquelles on s'attend à ce qu'un
faible nombre de prédicteurs soient importants.
J'explore ici l'utilisation de distributions a priori t généralisée sur
les coefficients de régression et son application aux études
d'association pangénomique. Pour de faibles degrés de liberté, la
distribution t généralisée montre des propriétés de parcimonie avec des
caractéristiques intéressantes par rapport à d'autres distributions
parcimonieuses classiques. Elle inclut également la distribution Laplace
comme cas particulier quand le degré de liberté tend vers l'infini.
Je vais dans un premier temps m'intéresser à montrer une représentation
sous forme de modèle de mélange de la loi t généralisée, permettant de
dériver un algorithme EM pour obtenir des estimées du maximum a
posteriori.
Je présenterai ensuite une analyse bayésienne complète du problème. On
s'intéressera particulièrement à des représentations graphiques des lois
a posteriori en fonction du paramètre d'échelle de la loi a priori afin
d'explorer la loi a posteriori pour une complexité variable, allant de
modèles très parcimonieux où toutes les distributions sont concentrées
autour de zéro, à des distributions plates où les coefficients sont
concentrés autour de l'estimateur du maximum de vraisemblance. Les
figures ainsi obtenues sont analogues aux figures obtenues pour le lasso
en fonction du paramètre de précision. Générer ces lois a posteriori
est computationnellement coûteux. On propose ici l'utilisation de
méthodes de Monte Carlo séquentielles, parallélisées sur processeur
graphique.
Travail joint avec Anthony Lee, Arnaud Doucet et Chris Holmes (Univ.
Oxford)
Référence:
A. Lee, F. Caron, A. Doucet, C.C. Holmes. Bayesian
Sparsity-Path-Analysis of Genetic Association Signal using Generalized t
Priors. To appear in Statistical Applications in Genetics and Molecular
Biology, 2011.
|
|
|
|
Le 12 juillet 2011, à 16h dans l'Amphi Louis :
Titre :
Introduction à la randomisation mendélienne - Analyse sur variables instrumentales /Title : Introduction to Mendelian Randomization - Instrumental Variables Analyses
Intervenant(s) :
Maria Glymour (Assistant Professeur, Department of Society, Human Development and Health, Harvard School of Public Health, Boston, USA).
Résumé :
In this talk I will describe the idea motivating the "Mendelian
Randomization" approach to identifying causal effects. Mendelian
Randomization is a special case of Instrumental Variables in which
genetic information is used as an instrument to estimate the effect of a
genetically influenced phenotype on a health outcome. I will use
Directed Acyclic Graphs to illustrate the assumptions for Instrumental
Variables analyses and examples of violations of these assumptions.
Although the assumptions cannot be conclusively established, there are
some assessments that may be valuable, depending on the strength of
background knowledge in the field, including over-identification tests.
These options may improve with the availability of genome wide data for
Mendelian Randomization studies. I will also discuss the interpretation
of the parameter estimate, in Instrumental Variables analyses in
general and Mendelian Randomization studies in particular. To
illustrate, we will discuss a few examples of Mendelian Randomization
studies and some research areas in which the approach seems especially
promising.
|
|
|
|
Le 14 juin 2011, Amphi Louis :
Titre :
Prédiction de proportions de fausses découvertes en tests multiples avec dépendance / Title : Predicting false discovery proportions in dependent multiple testing
Intervenant(s) :
Subhashis Ghoshal Professeur, Department of Statistics, North Carolina State University, USA).
Résumé :
In the recent years, multiple hypothesis testing has come to the
forefront of statistical research, ostensibly in relation to
applications in genomics and some other emerging fields. In an earlier
work, we proposed a nonparametric mixture of beta model for p-value
density under the alternative and putting a Dirichlet process prior on
the mixing distribution, and used it to estimate positive false
discovery rate. We showed that the resulting Bayes estimates are
computable, lead to smaller estimation error compared to classical
procedures, and the posterior distribution is consistent under mild
conditions. However, the beta distribution does not have nice
generalizations in higher dimensions with arbitrary correlation
structure. To avoid the problem, we transform p-values through probit
link and argue that a multivariate skew-normal mixture model can
adequately describe the variations in p-values, preserving some salient
features of its distribution. We address identifiability issues and the
role of the multivariate mixture model in predicting false discovery
proportions in a dependent multiple hypothesis testing scenario.
Simulation experiments show that the mixture model predicts false
discovery proportion fairly accurately under different dependence
scenario. The method is illustrated with an application in a kidney
transplant data.
|
|
|
|
Le 8 juin 2011 au matin (heure et salle à préciser) :
Titre :
Test sur une combinaison de scores pour des critères de jugement binaires et ordinaux dans les essais cliniques
Intervenant(s) :
John et Anne Whitehead (Professeurs, Département de Mathématiques et Statistiques, Université de Lancaster, UK).
Résumé :
The trial of rTPA as a treatment in acute stroke conducted by the
National Institute of Neurological Disorders and Stroke was analysed
using a novel statistical approach. Instead of choosing just one of the
well known scales for assessing recovery from stroke (Barthel Index,
modified Rankin, NIH Stroke Scale), the primary analysis was based on a
combination of scales. A similar approach has been adopted for the
ongoing ICTUS trial in stroke. The responses from the stroke scales are
correlated, but each measures different aspects of recovery. When taken
together, they have greater power to detect the advantage of a treatment
that provides wide ranging benefit than any one of them can achieve
alone.
In this talk, methods for combining binary and ordinal responses will be
presented, and the power and sample size implications of doing so will
be described. The suitability of the approach for therapeutic areas
other than stroke and its implementation for quantitative and survival
endpoints (rather than binary and ordinal) will be discussed.
|
|
|
|
Le 17 mai 2011, Amphi Louis
Titre :
Cognitive change in older persons: the assessment of cognitive decline, its relation to neural pathologies, and determining the potential for intervention to delay or prevent the onset of dementia.
Intervenant(s) :
Riccardo Marioni (Post-doctorant, Department of Public Health and Primary Care, Université de Cambridge, Royaume-Uni).
Résumé :
Potentially modifiable factors such as education and lifestyle
are thought to affect the progression of cognitive decline. This is
commonly referred to as cognitive reserve or cognitive lifestyle. This
study tested the association between cognitive lifestyle score and
cognitive change in a population-based cohort of older persons from five
sites across England and Wales. Data came from 13,004 participants of
the Medical Research Council Cognitive Function and Ageing Study who
were aged 65 years and over. Cognition was assessed at multiple waves
over 16 years using the Mini-Mental State Examination. Subjects were
grouped into four cognitive states (no impairment, slight impairment,
moderate impairment, severe impairment) and cognitive lifestyle score
was assessed as a composite measure of education, mid-life occupation,
and current social engagement. A multi-state model was used to test the
effect of cognitive lifestyle score on cognitive transitions. Hazard
ratios for cognitive lifestyle score showed significant differences
between those in the upper compared to the lower tertile with higher
cognitive lifestyle protecting against transitions from no impairment to
slight impairment (0.58, 95% CI (0.45, 0.74)), encouraging recovery
from a slightly impaired state back to a non-impaired state (2.93 (1.35,
6.38)) but increasing the risk of transitioning from severe impairment
to death (1.28 (1.12, 1.45)). An enhanced cognitive lifestyle protects
against cognitive decline, increases cognitive recovery from a slightly
impaired cognitive state but accelerates the transition to death from a
severely impaired cognitive state.
|
|
|
|
Le 5 avril 2011 à 10h, salle ED 36
Titre :
Expected prediction performance: definition, estimation and decomposition / Performance d'une prédiction : définition, estimation et décomposition.
Intervenant(s) :
Thomas A. Gerds (Associate Professor of Biostatistics, Institute of Public Health, University of Copenhagen, Danemark).
Résumé :
|
|
|
|
Le 29 mars 2011, Amphi Louis
Titre :
Méthodes statistiques pour les données post-génomique.
Intervenant(s) :
Philippe Besse (Professeur, équipe Statistique et Probabilités de l'Institut de Mathématiques, UMR CNRS 5219, INSA Toulouse).
Résumé :
Le principal défi soulevé par l'analyse de données post-génomiques
(transcriptomiques, protéomiques, métabolomiques...) est la prise en
compte de leur grande dimension : le nombre p de variables au regard de
la taille n des échantillons. La stratégie largement la plus utilisée en
routine : tests multiples et correction de Benjamini Hochberg pour la
recherche, par exemple, de gènes différentiellement exprimés, pose de
nombreux problèmes et n'est pas nécessairement adaptée à l'objectif
poursuivi. A la suite de nombreuses comparaisons sur différents projets
et jeux de données, l'équipe "biostat" de l'institut de maths s'est plus
particulièrement focalisée sur le développement (package mixOmics) et
l'utilisation d'une version "sparse" de la régression PLS pour répondre à
différentes questions et atteindre différents objectifs : "prévision"
plutôt que "explication" et sélection de variable (recherche de
"biomarqueurs"), comparaison de deux jeux de données sur les mêmes
observations (i.e. transcriptomiques et phénotypiques), régression et /
ou discrimination (PLS-DA), graphiques d'aide à l'interprétation...
Après une introduction générale des contextes et problèmes posés, une
présentation succincte de la "sparse" PLS, plusieurs exemples
d'applications seront présentés.
|
|
|
|
Le 01 mars 2011, Amphi Louis
Titre :
Évènements récurrents et risques concurrents.
Intervenant(s) :
Jean-Yves Dauxois (Professeur, Laboratoire de Mathématiques, UMR CNRS
6623, Université de Franche Comté).
Résumé :
En Statistique des durées de vie, les modèles à risques concurrents
permettent de prendre en compte les différentes causes de décès ou de
panne et de comparer leurs incidences. Nous présentons dans cet exposé
des développements récents obtenus dans ce domaine, avec pour objectif
principal une application en biostatistique. Nous considérons en
particulier une problématique de risques concurrents pour des
récurrences d'infections noesocomiales sur des patients hospitalisés
dans un service de réanimation français. Une inférence non paramétrique,
estimations et tests, est menée dans ce cadre. Enfin, nous abordons un
problème de construction de bandes de confiance pour les fonctions
moyennes spécifiques. Nous utilisons pour cela une approche via la
notion de vraisemblance empirique. Les résultats théoriques obtenus dans
ces travaux (comportements asymptotiques des estimateurs et des
statistiques de test) font appel à des techniques de martingales et/ou
de processus empiriques. Nous illustrons nos résultats sur le jeu de
données réelles et étudions par simulation de Monte Carlo les propriétés
de nos estimations sur des échantillons de taille finie.
|
|
|
|
Le 15 février 2011, Salle Pous
Titre :
Seuil optimal d'un critère diagnostique continu issu de mesures longitudinales d'un biomarqueur.
Intervenant(s) :
Fabien Subtil (Post-doctorant, Equipe Biostatistique-Santé, UMR CNRS 5558 Biométrie et Biologie Evolutive, Université de Lyon 1)
Résumé :
Lorsqu'un biomarqueur est mesuré de façon répétée au
cours du suivi de patients, il est d'abord
nécessaire d'établir un critère, issu
du profil d'évolution longitudinal du marqueur,
afin de détecter la survenue
d'un événement, ou d'en prédire la gravité. Une
méthode de modélisation robuste
de données longitudinales est proposée afin de
calculer les différents critères
pour les patients, et d'en comparer les
performances diagnostiques ou
pronostiques. Dans un second temps, il faut
déterminer un seuil de ce critère
quantitatif au dessus ou en dessous duquel le
test diagnostique est considéré
comme positif. Une méthode bayésienne
d'estimation de ce seuil et de son
intervalle de crédibilité a été développée. Ce
travail a été appliqué au
diagnostic de persistance locale de cellules
cancéreuses après traitement par
ultrasons d'un cancer de la prostate. Ce
diagnostic est effectué à partir des
mesures répétées d'antigène spécifique de la
prostate (PSA), dont le nadir a été
retenu, avec différents seuils, comme meilleur
critère diagnostique. Ceci permet
de n'effectuer des biopsies que lorsqu'il y a de
fortes chances qu'elles soient
positives.
|
|
!! Afficher les séminaires archivés avant 2011 !!
|
Labéllisé par :
Membre de :
|