Programação detalhada

24/07/2023

Conferência de abertura

Generalizing the MCPMod dose finding methodology beyond normal, independent data

Poor dose-regimen selection resulting from insufficient knowledge of the dose-response relationship remains one of the key challenges in clinical drug development, believed to be associated with the high attrition rate currently observed in confirmatory trials. Different methods have been proposed to improve on the conventional, inefficient paradigm of pairwise testing of active doses versus placebo, among them MCPMod. This approach has the appealing feature of combining good aspects of hypothesis testing and modeling, implementing dose-response estimation and dose selection under model uncertainty. However, MCPMod was originally developed for parallel group designs with normally distributed responses, thus limiting its applicability in drug development practice. This talk describes a generalization of MCPMod that extends the approach to a much broader class of trial designs and response variables, covering most cases of practical interest. Examples and simulations will be presented to illustrate the use of the methodology, using the software implementation in the DoseFinding R package. Joint work with Frank Bretz and Björn Bornkamp, Novartis AG

Conferência 2

Desafios da estatística para aumento da eficiência na etapa inicial do melhoramento de plantas

O setor agrícola sempre foi de grande importância econômica para o Brasil, onde commodities, como soja e cana de açúcar, apresentam papel de destaque. A soja contribui enormemente para o setor alimentício, e a cana de açúcar tem sido destaque na produção de matéria prima para a fabricação do açúcar e do etanol, além de outros produtos. Para atender à crescente demanda do mercado, variedades mais produtivas são necessárias em substituição ao eventual aumento da área plantada dessas culturas. O desenvolvimento de variedades mais produtivas ocorre graças aos programas de melhoramento genético. No caso da cana de açúcar, um programa de melhoramento pode começar com pouco mais de um milhão de indivíduos geneticamente distintos que, ao longo de quase 13 anos, são avaliados, descartados ou selecionados até o lançamento de uma nova variedade comercial. Pesquisas que objetivam a eficiência na seleção precoce são importantes num mundo cada vez mais competitivo e emergencial. A combinação de procedimentos fitotécnicos, estatísticos, genéticos e computacionais tem permitido grande avanço ao encontro desse objetivo. Nessa palestra abordarei sobre dois tópicos importantes que são relacionados a problemas práticos encontrados nas fases iniciais do ciclo de seleção. Tratarei, inicialmente, sobre os Delineamentos em Blocos Aumentados (DBA), muito comum no caso da soja devido à limitação do número de sementes oriundas de cada uma das milhares de famílias que precisam ser avaliadas em um maior número de ambientes. Comentarei sobre os cuidados necessários para a instalação do DBA e algumas alternativas de análise. Em seguida, apresentarei alguns trabalhos desenvolvidos no programa de melhoramento da cana na UFV, principalmente sobre o uso de dados de infravermelho próximo, imagens por drone, e quebra de paradigmas experimentais e de análises com vistas a tornar mais eficiente o trabalho de identificação de genótipos candidatos a se tornarem variedades.

Conferência 3

Using Model-based Geostatistical Methods to Support Neglected Tropical Disease Control Programmes

 Neglected Tropical Disease Control Programmes aim to reduce the prevalence of NTDs to a level at which they can be considered to have been eliminated as a public health problem or, more ambitiously, eradicated altogether. The core statistical challenge in this endeavour is to design and analyse prevalence surveys that achieve pre-agreed performance levels (typically, acceptably high positive and negative predictive values for declaration of elimination at a specified level of spatial resolution) at minimum cost.

The NTD community is beginning to recognise that geospatial statistical methods are better suited to this task than are the currently prevailing methods based on classical survey sampling methodology (Diggle et al, 2023). In this talk I will review the basic components of model-based geostatistics (Diggle, Moyeed and Tawn, 1998), show how these have been applied to a national survey of lymphatic filariasis prevalence in Guyana, and discuss other applications (some incomplete) where extensions of the basic methodology are required. Joint work with Claudio Fronterre, Emanuele Giorgi and many others.

25/07/2023

Conferência 4

Agrupamento de interações gene-gene pelo processo de Dirichlet aninhado marginalizado

Introduzimos uma versão marginal do processo de Dirichlet aninhado (NDP) para agrupar distribuições ou histogramas. Aplicamos o modelo para agrupar genes por padrões de interação gene-gene. Ele permite a inferência exata da simulação, em oposição a uma aproximação truncada do processo de Dirichlet. Aplicamos o modelo proposto para inferência sobre agrupamentos de genes relacionados ao reparo de incompatibilidade de DNA (DMR) pela distribuição de interações gene-gene com outros genes. Comparamos os resultados com uma variação do k-means adaptado para agrupamento de distribuições, NDP truncado e um método de agrupamento hierárquico. A inferência proposta apresenta desempenho favorável, em condições simuladas e também em conjuntos de dados reais. Trabalho conjunto com Peter Muller, Yitan Zhu, Shengjie Yang e Yuan Ji e participação no congresso parcialmente financiada pelo projeto Para Mulheres na Ciência 2022 do L’Oreal Brasil, Unesco e SBC.

Conferência 5

Navigating Neurotoxicology in the 21st Century: Understanding Current Issues and Trends

Neurotoxicology is a specialty that aims to understand and explain the impact of chemicals, xenobiotics, and physical conditions on nervous system function throughout the life span. Herein, we point to the need for integration of novel translational bioinformatics and chemo-informatics approaches, such as machine learning (ML) and artificial intelligence (AI) to the discipline. Specifically, we advance the notion that AI and ML will be helpful in identifying neurotoxic signatures, provide reliable data in predicting neurotoxicity in the context of genetic variability, and improve the understanding of neurotoxic outcomes associated with exposures to mixtures, to name a few.

26/07/2023

Conferência 6

Modelos de Predição Clínica

Modelos de predição clínica são construídos com o objetivo de identificar pacientes ou indivíduos com maior probabilidade de desenvolver um específico evento, usualmente doença ou óbito. Estas predições são utilizadas para mudar estilo de vida, guiar nas decisões terapêuticas, estratificar por gravidade, entre outros. Este trabalho foi motivado pela necessidade de construir um escore de risco para pacientes chagásicos cardiopatas a partir de uma coorte acompanhada na região do vale do Jequitinhonha, estado de Minas Gerais. Inicialmente foram obtidas predições a partir da linha de base, e a seguir, a medida que a coorte caminhou longitudinalmente,  torná-las dinâmicas. Vamos apresentar nesta palestra os passos fundamentais para a construção de um escore de predição estático e dinâmico e ilustrar com os resultados obtidos para o estudo do vale do Jequitinhonha.  

28/07/2023

Conferência 7

Harnessing the Power of Environmental Data Biometry for Plant Science

Modern Plant Science research should be able to integrate the biometry of diverse data types, among them the use of environmental information. This talk will explore the emerging field of “enviromics” and “envirotyping” as valuable tools for improving plant breeding and understanding the ecological aspects behind the natural selection of plant species. By utilizing large amounts of environmental data, scientists can identify the environmental factors that affect plant growth and development, allowing for more efficient and targeted plant breeding efforts. These techniques also have the potential to shed light on the complex interactions between plants and their environment, as well as to predict the complex GxE interactions. We will present the EnvRtype package to help plant scientists in this field, supporting data analytics to rethink the way we analyze the experimental trials, leading to the development of climate-smart varieties. 

Conferência 8

Modelo de regressão de longa duração e com fragilidade: uma aplicação aos dados de COVID-19 grave em gestantes e puérperas

Avaliamos fatores prognósticos para a sobrevida de gestantes e puérperas internadas com síndrome respiratória aguda grave (SRAG) confirmada por COVID-19 quando a cura é uma possibilidade. Para isso, são analisados os dados do SIVEP-Gripe, base populacional de notificação obrigatória das internações por SRAG para a vigilância epidemiológica da gripe. Há fatores que obstetras acreditam influenciar na sobrevida, mas que não são registrados nessa base, como o tabagismo. Por isso, há também o interesse em estimar a heterogeneidade não observável dada pelos fatores prognósticos que não são observados e, ainda, a função de risco apresenta uma forma unimodal. Propomos um modelo de regressão para dados de sobrevivência na presença de sobreviventes de longa duração com base no modelo de distribuição Dagum defeituoso e com um termo de fragilidade PVF (power variance function), introduzido na função de risco para controlar a heterogeneidade não observável. Este estudo faz parte do Observatório Obstétrico Brasileiro, projeto multidisciplinar que visa monitorar e analisar dados públicos do Brasil a fim de disseminar informações relevantes na área de saúde materno-infantil. Maiores informações podem ser acessadas em https://observatorioobstetricobr.org/.

Conferência 9

Using complex models in the identification of sick cows

Dairy cows are constantly monitored days before and after delivery in order to identify factors that may predict their state of health before the onset of lactation. One way of predicting the level of cows disease is using the number of disease episodes under the considered period. To model this counting response we consider a zero inflated mixture of Poisson distributions, mixturing a zero-inflated state with low and high incidence state represented by a mixture of two Poisson distributions. Besides that, we are interested in fitting a regression model to the probability of each class using not only scalar but also functional covariates, as for example rumination curve and feeding curve. The use of functional covariates brings a high level of complexity to the model, challenging the researcher to reduce dimensionality space. Model methodology is present as well as an application to a real data set.

Miniconferências

Miniconferência 1 – Young researcher (Y1) – 24/07/2023 (16:00-16:30)

Palestrante: Marcelo Andrade da Silva - Escola Superior de Agricultura “Luiz de Queiroz” - Universidade de São Paulo (ESALQ/USP) 

Título: Alternative polytomous IRT models 

Resumo: The item response theory (IRT) models for polytomous data are frequently used in the analysis of data coming from the behavioral and social sciences. From a practical point of view, polytomous data are more informative than dichotomous data, since it considers more than two response categories in each test item, making the models assigned to this type of data attractive. The purpose of this research is to explore alternative polytomous IRT models and their multidimensional extensions, filling some gaps in the literature. Specifically, the works that will be presented at the mini-conference follow a construction sequence of the IRT modeling: (1) we conducted a study to assist readers in choosing between two of the major polytomous IRT models: the graded response (GR) model and the generalized partial credit (GPC) model; (2) we extended the one-dimensional GPC model to the bifactor context; (3) we incorporated the relation between the items and the latent trait dimensions of the individuals in the formulation of the multidimensional item response theory (MIRT) models through a component called Q-matrix; (4) we proposed a validation method using the Q-matrix in MIRT models; and (5) we explored the multidimensional GR model with two hierarchical structures and Q-matrix. The simulation studies and the applications performed in this research showed that these models are alternative models for the analysis of polytomous data and that can be used in practice.

Miniconferência 2 – Young researcher (Y2) – 25/07/2023 (11:30-12:00)

Palestrante: Oilson Alberto Gonzatto Junior - Instituto de Ciências Matemáticas e de Computação - Universidade de São Paulo (ICMC/USP)

Título: Modelo de fragilidade para múltiplos sistemas reparáveis hierarquicamente representados em estruturas série/paralelo sob a suposição de reparos imperfeitos ARAm

Resumo: Para essa exposição, integramos algumas ideias comuns para a análise de sistemas reparáveis estendendo-as ao contexto de múltiplos sistemas reparáveis hierarquicamente representados, com heterogeneidade não-observada sobre os tempos de falha modelada por um termo de fragilidade, a possibilidade da ocorrência de reparos imperfeitos ARAm e cuja taxa de falha inicial tem a forma lei de potência. Fizemos um estudo de simulação para avaliar a qualidade dos estimadores de máxima verossimilhança e ilustramos a utilização do modelo considerando um conjunto de dados com os registros dos tempos de falha de 38 máquinas agrícolas categorizadas em cinco diferentes grupos.

Miniconferência 3 – Young researcher (Y3) – 25/07/2023 (16:00-16:30)

Palestrante: Alex Leal Mota - Universidade Federal do Amazonas (UFAM)

Título: Modelo de sobrevivência com fração de cura e fragilidade aplicado a dados de câncer de estômago 

Resumo: Neste trabalho, propomos um modelo de sobrevivência para modelar conjuntamente a fração de cura e a heterogeneidade não observada entre pacientes não curados. O modelo proposto é derivado incorporando um termo de fragilidade no modelo de cura unificado com as causas competitivas seguindo a distribuição binomial negativa. O termo de fragilidade é descrito pela distribuição de Lindley ponderada, que tem função de densidade flexível e transformada de Laplace de forma fechada.  A estimação de parâmetros é realizada usando o método de máxima verossimilhança sob censura aleatória à direita, e estudos de simulação de Monte Carlo são conduzidos para avaliar o desempenho dos estimadores. Finalmente, ilustramos a aplicabilidade do modelo analisando um conjunto de dados de câncer de estômago.

Miniconferência 4 – Young researcher (Y4) – 26/07/2023 (11:30-12:00)

Palestrante: Frederico Machado Almeida - Universidade de Brasília (UnB)

Título: Soluções bayesianas para a verossimilhança monótona no modelo de mistura padrão com fração de cura

Resumo: Os modelos de fração de cura têm vantagem sobre as técnicas usuais de sobrevivência por levarem em conta a heterogeneidade existente na população. Essa classe de modelos permite maximizar conjuntamente as distribuições associadas aos dois subgrupos de indivíduos na população (susceptíveis e não-susceptíveis). Entretanto, sob certas condições na amostra, o processo de estimação pode ser problemático, produzindo estimativas que tendem para ± ∞. Como consequência, a função de verossimilhança não será maximizada para tais coeficientes. Este fenômeno é conhecido na literatura como o problema da Verossimilhança monótona (VM), ocorrendo tanto nos modelos de sobrevivência como na regressão logística. O problema da VM tende a ocorrer em situações envolvendo amostras pequenas com substanciais tempos de censura, ou na presença de covariáveis binárias fortemente desbalanceadas. Particularmente, o fenômeno ocorre quando todas as falhas estiverem associadas a um único nível da covariável dicotômica. Sob o ponto de vista frequentista, a proposta de correção existente na literatura é baseada na correção de Firth, originalmente desenvolvida para reduzir o viés dos estimadores de máxima verossimilhança. O método previne estimativas infinitas por meio da penalização da função de verossimilhança, com o termo de penalidade podendo ser interpretado como a priori invariante de Jeffreys, frequentemente usada em inferência Bayesiana. Neste trabalho, propomos penalizar a função de verossimilhança do modelo de mistura padrão, investigando outras funções de penalidade (distribuições a priori). Um estudo de simulação de Monte Carlo indicou bons resultados em termos de inferência, especialmente para dados balanceados. Por fim, uma aplicação envolvendo dados de melanoma foi apresentada.

Sessão Temática 1 – Ciências de Dados - 24/07/2023 (13:30-15:00)

Modelagem espaço-temporal dos incêndios florestais brasileiros: A influência de variáveis humanas e meteorológicas

 Os incêndios florestais são um dos desastres naturais mais comuns em muitas regiões do mundo e impactam ativamente a qualidade de vida. Esses eventos se tornaram frequentes com o efeito crescente das mudanças climáticas e outras políticas locais e comportamento humano. Este estudo considera os dados históricos com as localizações geográficas de todos os “focos de incêndio” detectados pelos satélites de referência que cobrem todo o território brasileiro entre janeiro de 2011 e dezembro de 2020, compreendendo mais de 1,8 milhão de focos de incêndio. Esses dados foram modelados com um modelo econométrico espacial usando variáveis meteorológicas (precipitação, temperatura do ar, umidade e velocidade do vento) e uma variável humana (transição de uso e ocupação do solo) como covariáveis. Descobrimos que a mudança no uso da terra de florestas e áreas verdes para agricultura tem um impacto positivo significativo no número de focos de incêndio para todos os seis biomas brasileiros. (trabalho conjunto com Jonatha Pimentel e Rodrigo Bulhões).

Inovação através da tradição: a arte da experimentação aplicada aos negócios na era Big Data

 No competitivo e dinâmico contexto de negócios, inovação e otimização são fundamentais. A experimentação se torna necessária para assistir a inovação e chegar em condições ótimas, avaliando mudanças específicas em processos ou produtos, com o objetivo de melhorar os resultados do negócio. Na Era do Big Data, as empresas têm acesso a uma variada e grande massa de dados e desejam, mais do necessitam, aplicar métodos avançados, como machine learning e inteligência artificial, para tomada de decisão. No entanto, o alto volume de dados e métodos sofisticados não garantem descobertas de inovação realmente disruptivas e sustentadas por relações de causalidade, que possam ser generalizadas para além da amostra analisada. É onde a experimentação clássica pode ser resgatada para impulsionar o desenvolvimento contínuo. A experimentação em negócios apresenta desafios, como a escolha adequada dos indicadores de sucesso, a necessidade de infraestrutura de TI para uso em larga escala e tempo reduzido, além do cuidado estatístico para evitar distorções causadas pelo uso de dados obtidos de forma não planejada, o que pode comprometer os resultados da investigação. Além disso, o contexto empresarial muitas vezes envolve um maior número de variáveis e alta densidade causal, além de um ambiente mais dinâmico e sujeito a mudanças imprevistas. Isso exige uma abordagem mais flexível, adaptativa e integrada para a experimentação, já que as variáveis podem ser mais difíceis de controlar, pode não ser possível realizar casualização ou amostragem, a população-alvo pode variar amplamente entre diferentes segmentos de clientes, entre regiões e períodos de tempo, por exemplo. Nesta palestra, será apresentada uma visão geral de como a experimentação pode ser utilizada em ambientes de negócios para pesquisa, desenvolvimento e inovação (PDI). Serão abordados os principais desafios do uso de experimentação em negócios e como superá-los, combinando rigor científico e recursos da Era Big Data. Além disso, serão discutidos os cenários futuros para experimentação em ambientes de negócios, mostrando como as empresas podem tirar proveito dos avanços tecnológicos para inovar e melhorar o desempenho empresarial.

Árvores em Vendavais: análise estatística da probabilidade de queda de árvores na cidade de Maringá-PR

A cidade de Maringá, no Paraná, conquistou em 2023, pelo segundo ano consecutivo, o título de ′Cidade Árvore do Mundo′. O reconhecimento foi concedido pela Organização das Nações Unidas para Agricultura e Alimentação (FAO-ONU) e pela Fundação Arbor Day, sendo que apenas 168 cidades, de 21 países possuem tal reconhecimento. O grupo seleto reúne metrópoles como Paris, Turin, Milão, Madri, Nova Iorque e Toronto. Para receber o reconhecimento, a cidade teve que atender critérios como manejo adequado da arborização, incluindo legislação específica, orçamento anual para o setor, ações de conscientização da comunidade e outros aspectos. Maringá tem aproximadamente 150 mil árvores na área urbana. Os grandes corredores verdes proporcionam sombra, melhoria na qualidade do ar, redução de temperatura local, aumento da biodiversidade e a promoção da saúde mental e bem-estar da população. Todavia, com a grande quantidade de árvores, quedas são inevitáveis. Em um vendaval que ocorreu em 23/04/2022 caíram mais de 500 árvores, gerando o corte de energia em mais de 65.000 domicílios, com enormes prejuízos econômicos para os comerciantes e a população em geral. Para lidar com esse problema, a prefeitura de Maringá assinou um convênio com a Universidade Estadual de Maringá – UEM para realizar uma análise estatística da probabilidade de queda de árvores na cidade. O objetivo do convênio é identificar áreas com maior risco de queda de árvores, para que a prefeitura possa tomar medidas preventivas. O estudo envolve uma equipe interdisciplinar formada por Estatísticos, Matemáticos, Biólogos, Engenheiros Florestais e Geógrafos. Desta forma, esta palestra tem por intuito apresentar os resultados preliminares obtidos pela equipe, com a utilização de estatística espacial e de algoritmos de Machine Learning, como a Regression Tree.

Sessão Temática 2 – Jovens Pesquisadores da RBras - 24/07/2023 (13:30-15:00)

Os desafios dos jovens cientistas brasileiros: carreira, perspectivas e remuneração

Nesta sessão serão discutidos os principais desafios da vida dos jovens cientistas durante e logo após o seu período de formação, abordando a forma como são vistos dentro da academia, as fortes pressões que estão submetidos, as dificuldades encontradas por tais no mercado de trabalho, a remuneração ideal e a que é ofertada aos profissionais, bem como o ponto de vista que o mercado atual possui em relação aos egressos e como tentar contornar tais situações, seja no cenário brasileiro ou no exterior.

Sessão Temática 3 – Brazilian Journal of Biometrics - 25/07/2023 (13:30-15:00)

Primeira parte da Sessão: Apresentação do Brazilian Journal of Biometrics

 O Brazilian Journal of Biometrics (BJB) é o periódico oficial da RBras e completou em 40 anos de existência em 2022. O BJB obteve recentemente o seu primeiro indice no SJR do Scimago, estando em avaliação em outras bases de dados. Nesta palestra, apresentaremos, de forma breve, o Brazilian Journal of Biometrics. Mais informações sobre o BJB podem ser encontradas em: https://biometria.ufla.br/index.php/BBJ/index.

Segunda parte da sessão: Mesa redonda relacionada com o processo de publicação em revistas científicas

 Mesa redonda relacionada com o processo de publicação em revistas científicas com breves exposições e resposta a perguntas da audiência. Participação da discussão: Clarice Demétrio (Ex-Editora do Brazilian Journal of Probability and Statistics), Eric Batista Ferreira (Editor da Sigmae) e Paulo Canas Rodrigues (Co-Editor do Brazilian Journal of Biometrics e Co-Editor do Computational Statistics).

Sessão Temática 4 – Mulheres na Ciência: Recentes pesquisas em Análise de sobrevivência - 25/07/2023 (13:30-15:00)

A presença de mulheres nas ciências promove ganhos qualitativos e avanços consideráveis em estudos dos mais diversos temas. Neste cenário esta Sessão Temática destaca-se, pela importância de se contemplar perfis diversos de mulheres cientistas na área de Análise de Sobrevivência. As pesquisadoras convidadas têm por meta apresentar pesquisas que contribuirão para o avanço de novas modelagem na área.

Proposta de nova taxa de inovação de adoção de políticas públicas por meio do modelo de regressão de Cox

O processo de difusão de políticas públicas busca identificar quais motivos e fatores podem influenciar a velocidade das adoções de políticas. A difusão é apontada por Rogers como um processo social que ocorre entre as pessoas em resposta ao aprendizado sobre uma inovação. Essa inovação é comunicada por meio de determinados canais ao longo do tempo entre membros de um sistema social. Assim, a variável dependente comumente avaliada em pesquisas de difusão é o tempo até a adoção de determinada política. Alguns índices de inovação foram propostos, e de acordo com o grau de inovação, essas medidas estabelecem quais estados irão adotar novas políticas mais cedo do que outros. Este trabalho propõe uma nova medida de inovação política por meio do modelo de regressão de Cox. A nova taxa de inovação é uma evolução metodológica em relação aos escores tradicionais da literatura, uma vez que relaciona as características econômicas, geográficas e políticas ao tempo até a adoção de determinada política por determinado estado. E a nova taxa de inovação global proposta é a soma do risco de cada uma das políticas avaliadas. Os dados deste estudo consideram informações de 48 estados americanos e para cada um deles é considerado o tempo até a adesão de cada uma das três políticas educacionais dos Estados Unidos: Charter Schools, High School Exit Exams e School Choice. Por fim, os resultados das duas medidas já existentes na literatura são confrontados com os resultados obtidos por meio da nova taxa de inovação proposta.

The Defective Gamma-G Family for Cure Rate Regression Models

An alternative to the standard mixture model is proposed for modeling data containing cured elements or a cure fraction. This approach is based on the use of defective distributions to estimate the cure fraction as a function of the estimated parameters. Defective distributions model cure rates by changing the usual domain of its parameters in a way that their survival functions converge to a value p (0; 1). A new way to generate defective distributions to model cure fractions is proposed. The new way relies on a property derived from the Gamma-G family of distributions. We take a special attention when G comes from a defective Gompertz distribution and Inverse Gaussian distribution, that is, when we have the defective Gamma-Gompertz distribution and Gamma-Inverse Gaussian distribution. We use some simulation studies to show the finite sample convergence of the parameters in the distributions, as well as to compare the proposed models with the standard mixture approach. We use a real data set to show that the new family can outperform the standard mixture model. A regression approach for these models is also proposed.

Quantile regression models with cure fraction: a comparison between the standard mixture model and the defective model

We discuss quantile regression models for data survival with a cure rate in which the distributions are conveniently reparameterized in terms of the qth quantile and linked to covariates linked to a logarithmic function. We develop the standard mixture quantile regression model with generalized Gompertz distribution for the susceptible individuals and we compare it to the model that considers the generalized Gompertz distribution in a defective version (defective model). Through a Monte Carlo simulation study, we evaluate if the parameters of the defective model are overloaded when simultaneously estimating the cure fraction and the parameters of the lifetime of the individuals that are subject to failure. In addition, both models are applied to a real dataset. 

Sessão Temática 5 – A bioestatística na transformação digital - 26/07/2023 (13:30-15:00)

A bioestatística na transformação digital

Nas últimas décadas, destaca-se o crescimento substancial da estatística junto aos mais variados domínios científicos, substancialmente na área da saúde pública. Isso tem impulsionado o desenvolvimento de novos métodos estatísticos, possibilitando a melhoria da capacidade de fazer inferências estatísticas mais precisas. Isso deve-se, sobretudo, ao avanço dos métodos computacionais e à acessibilidade a grandes volumes de informações. Esta sessão temática tem por objetivo apresentar pesquisas onde a bioestatística exerce papel fundamental na geração de conhecimento e como esta é facilitadora na melhoria da qualidade de vida da sociedade. Os pesquisadores convidados irão apresentar como a bioestatística e tecnologia convergem para a transformação digital. Gustavo Mendes, da Anvisa, que hoje está representando o Brasil na IVI (International Vaccine Institute) em Seul, na Coreia do Sul, apresentará as principais abordagens bioestatísticas utilizadas no desenvolvimento clínico e biotecnológico de vacinas. Discutirá como a bioestatística colabora na construção do conhecimento científico, resultando na aprovação de uma vacina pelas agências reguladoras. Sandro Marques, consultor de dados junto à Escola de Medicina de Stanford, discutirá sobre as evidências do mundo real na tomada de decisão clínica. O tema abordará o uso de dados do mundo real, originados de sistemas de prontuário eletrônico de pacientes e outras fontes, para a geração de evidências cientificamente construídas, podendo apoiar gestores e profissionais de saúde a tomar decisões mais ágeis, personalizadas e específicas quando a pesquisa clínica, por qualquer motivo, não for viável. Finalmente, Leonardo Bastos, pesquisador em saúde pública do Programa de Computação Científica da Fundação Oswaldo Cruz – Fiocruz, apresentará a palestra sobre como corrigir atraso de notificação de doenças infecciosas no Brasil, uma vez que, o atraso de notificação é um problema crônico, bem conhecido no contexto da vigilância epidemiológica e ignorá-lo pode induzir ao erro para o tomador de decisões de saúde pública. Portanto, faz-se necessário que o atraso de notificação seja corrigido em tempo real como parte de um sistema de monitoramento de epidemias, contribuindo para que o início de uma epidemia de uma doença monitorada possa ser identificada de forma ágil e oportuna e ações de enfrentamento sejam tomadas com a devida antecedência. 

Sessão Temática 6 – Sessão ABE (Associação Brasileira de Estatística) - 26/07/2023 (13:30-15:00)

Associação Brasileira de Estatística (ABE): Desafios passados e futuros

Nesta sessão será apresentada uma revisão histórica da Associação Brasileira de Estatística (ABE) mostrando sua importância e as contribuições para a sociedade brasileira, assim como a participação feminina nos cursos de estatística nos últimos anos levando em consideração o recorte por raça. Apesar das enormes contribuições da Estatística para qualquer tipo de análise de dados, frequentemente, as discussões que envolvem tópicos recentes, como Ciência de Dados, Big Data e Inteligência Artificial, carecem da presença da área. Serão discutidos os desafios presentes e futuros da Estatística para a sociedade atual, no âmbito de novos interesses, abordagens e metodologias.

Sessão Temática 7 – Sessão Embrapa - 27/07/2023 (10:30-12:00)

  • Lançamento Livro: Estatística experimental na agropecuária – Autor: Alfredo Ribeiro de Freitas – Pesquisador aposentado da Embrapa.

   Apresentação: Maria Cristina Neves de Oliveira – Embrapa Soja – Londrina – PR 

  • Homenagem ao Pesquisador Dr. Geraldo da Silva e Souza – Embrapa Sede (in memoriam)

Palestra: Contribuição das Tecnologias Digitais na coleta de dados e na experimentação agropecuária 

Palestrantes: Waldomiro Barioni Júnior (Embrapa Pecuária Sudeste – São Carlos – SP) e Ivani de Oliveira Negrão Lopes (Embrapa Soja – Londrina – PR)

As pesquisas desenvolvidas na Embrapa Pecuária Sudeste com animais necessitam de dados coletados individualmente. Nesta operação todos os animais recebem um nº de identificação no nascimento. Este número fica vinculado ao animal até o seu descarte (morte ou comercialização), contribuindo com os programas de melhoramento animal, de manejo, de manutenção do rebanho, dos índices zootécnicos e sanitários e, principalmente para garantir a rastreabilidade em todo ciclo produtivo do animal. A identificação individual eletrônica de cada animal por Rádio Frequência (RFID) assegura a coleta de dados individuais (repetição), confiáveis, garantindo um dos princípios fundamentais na estatística aplicada à experimentação animal. Estas tecnologias digitais, integradas ao conceito de Pecuária de Precisão, auxiliam no trabalho de rotina da unidade, na otimização e na confiabilidade dos dados coletados e principalmente na experimentação agropecuária.

Sessão Temática 8 – Estatística & Aplicações - 27/07/2023 (10:30-12:00)

  • Nesta Sessão Temáticas reunimos metodologias estatísticas, direcionadas por aplicações em diferentes projetos.

Detecting at-risk mental states for psychosis in general population individuals using machine learning ensembles and facial features

To prevent the development of schizophrenia, preclinical stages of the disorder, known as “at-risk mental states for psychosis” (ARMS), have been intensively researched for the past three decades. Despite the many advances in the field, identification of ARMS is still resource-consuming and presents important issues regarding accuracy. To address this, our study aimed to develop a machine learning ensemble to distinguish ARMS from control individuals based on facial expression extracted from brief video-recordings. In this sense, 58 ARMS individuals and 70 healthy comparison subjects were screened from a general population sample. All of them were non-help-seeking and medication-näive. ARMS status was defined according to the Structured Interview for Prodromal Syndromes (SIPS), and the introductory section “Subject’s Overview” of the interview was filmed (5-10 minutes). Feature engineering based on the videos’ data included diverse facial features such as eye aspect ratio, mouth aspect ratio, Euler angles, as well as coordinates from 51 facial landmarks. This elicited 649 initial facial features that were further selected using Gradient Boosting Machines. A combination of AdaBoost with Random Forests as the weak learner was used for the model. To train and evaluate it, data was split in a 70/30 fashion, and Monte Carlo cross validation was used. The final model reached a mean F1-score of 83%, with a balanced accuracy of 85%. Mean area under the curve for the receiver operator curve classifier was 93%. In a convergent validity testing, we show two features included in the model that had a significant correlation with negative symptom Avolition (SIPS N2, p=0.0003) and Expression of Emotion (SIPS N3, p=0.011). Our model capitalized on short video recordings to analyze facial expression from individuals recruited from the general population, effectively distinguishing between ARMS and controls. Results are encouraging for large-screening purposes in low-resource settings.

Como classificar as atividades físicas realizadas por gestantes

É fundamental analisar a quantidade de atividade física entre gestantes de diferentes níveis socioeconômicos e estilos de vida, a fim de compreender melhor os elementos que influenciam seus hábitos de atividade física, bem como auxiliar no desenvolvimento de novas diretrizes e regulamentações públicas. Esta pesquisa fez parte do projeto PPSUS-FAPESP N.2019/03984-8, que visa definir e classificar as atividades físicas realizadas por 150 gestantes da cidade de Ribeirão Preto no Brasil no Sistema Único de Saúde (SUS), com base em dados gerados por meio do uso de acelerômetros e um aplicativo para registro das atividades físicas realizadas. Para avaliar a atividade física de gestantes, está sendo desenvolvido um assistente virtual no projeto {https://eva.fmrp.usp.br/}{EVA}, que visa acompanhar gestantes nesse período e analisar sua necessidade de atividade física e, com base nos resultados, fazer recomendações. Consequentemente, cuide da saúde da gestante. Para tanto, foram aplicadas técnicas de limpeza e processamento de dados e, em seguida, para classificação supervisionada, {LightGBM} (gradiente baseado em árvore boosting) e redes neurais artificiais do tipo Long short-term memory  (LSTM).  Dentre as conclusões, o treinamento com período de 30 segundos é apontado como a abordagem com as melhores métricas de acurácia. Alguns pontos fracos desta abordagem também foram identificados e possíveis melhorias derivadas. ( trabalho conjunto com Christoph Michael Mitschka,

MBA em Ciencias de Dados, ICMC-USP, Rafael B Fazio, Graduado em IBM,FMRP-USP e Tiago Chiaveri da Costa e Carla Micheli da Silva, Pós Graduação em Saúde Coletiva-Departamento de Medicina Social,FMRP-USP)

On a new extreme value distribution: characterization, parametric quantile regression, and application to extreme air pollution events

Extreme-value distributions are important when modeling weather events, such as temperature and rainfall. These distributions are also important for modeling air pollution events. Particularly, the extreme-value Birnbaum-Saunders

regression is a helpful tool in the modeling of extreme events. However, this model is implemented by adding covariates to

the location parameter. Given the importance of quantile regression to estimate the effects of covariates along the wide

spectrum of a response variable, we introduce a quantile extreme-value Birnbaum-Saunders distribution and its corresponding quantile regression model. We implement a likelihood-based approach for parameter estimation and consider two types of statistical residuals. A Monte Carlo simulation is performed to assess the behavior of the estimation method and the empirical distribution of the residuals. We illustrate the introduced methodology with unpublished real air pollution data.

 

The use of the EM algorithm for regularization problems in high-dimensional linear mixed-effects models

The EM algorithm is a popular tool for maximum likelihood estimation but has not been used much for high-dimensional regularization problems in linear mixed-effects models. In this paper, we introduce the EMLMLasso algorithm, which combines the EM algorithm and the popular R package glmnet for Lasso variable selection of the fixed effects in linear mixed-effects models. We compare the performance of the proposed EMLMLasso algorithm with the one implemented in the well-known R package glmmLasso through the analyses of simulated and two real data applications. The simulations and applications when p < n and p > n demonstrated good properties, such as consistency, and the effectiveness of the proposed variable selection procedure. Moreover, in all evaluated scenarios, the EMLMLasso algorithm outperformed glmmLasso. The proposed method is quite general and can be used for ridge and elastic net penalties in linear mixed-effects models. (Joint work with Daniela Ramires  and Fernanda Schumacher)

24/07/2023

Tutorial 1

Planejamento amostral e aplicações utilizando o software R

O objetivo deste tutorial é apresentar os  principais  conceitos  da  área  de  amostragem  e  suas  aplicações  no  software  R.    O planejamento amostral é uma fase primordial  no  desenvolvimento  de  uma  pesquisa  e  entender  o  rigor  científico  e  computacional  é  de  fundamental  importância  para  assegurar  a  validade  dos  resultados  através  da  compreensão  da  teoria  dos  métodos  probabilísticos  de  amostragem.  Sem esse entendimento, existe o  risco  de  que  a  pesquisa  seja  mal  planejada,  gerando  uma  análise  inferencial  imprecisa,  ainda  que  o  método  estatístico  considerado  para  inferência  seja  o  mais  adequado  para  o  tipo  de  variável  de  interesse  considerado.  Uma pesquisa amostral  probabilística  com  adequado  planejamento  permite  a  realização  de  inferência,  ou  seja,  podemos  concluir  sobre  a  população  estudada  com  base  na  amostra.  Dessa forma, pretende-se apresentar  conceitos  práticos  de  modo  que,  ao  final  do  tutorial,  o  público-alvo  tenha  condições  de  identificar  e  delinear  o  planejamento  amostral  mais  adequado  para  um  estudo  científico  de  complexidade  básica-intermediária.  O planejamento de uma  amostra,  além  dos  pontos  apresentados,  busca  definir  um  tamanho  amostral  em  que  seja  possível  delimitar  a  viabilidade  do  projeto,  evitando  desperdício  de  recursos  humanos,  financeiros  e  tempo,  assim  como,  falta  de  precisão  dos  resultados  encontrados,  garantindo  assim  conclusões  confiáveis.  Os  conceitos  a  serem  explorados  serão  os  seguintes:  População  e  amostra;  Censo  e  Amostragem;  Método  probabilístico  de  amostragem;  Analogia  da  inferência  via  amostragem  utilizando  o  “princípio  do  tiro-ao-alvo”;  Estimador  de  Horvitz-Thompson,  Principais  planos  amostrais  probabilísticos:  Amostragem  aleatória  simples,  Amostragem  Sistemática,  Amostragem  de  Bernoulli,  Amostragem  de  Poisson,  Amostragem  de  Pareto,  Amostragem  Estratificada,  Amostragem  por  conglomerados  em  um  estágio  de  seleção.  Aplicações em estudos reais.  Estimadores do tipo razão simples.  Ideias gerais sobre estimação assistida por modelos.  Planos de amostragem complexa.  O  Software  R  será  utilizado  como  ferramenta  computacional  no  processo  de  ensino  e  aprendizagem  das  técnicas  apresentadas  auxiliados  pelos  pacotes  TeachingSampling  (Seleção  de  amostras  e  estimativa  de  parâmetros  em  população  finitas),  sampler  (projetar,  desenhar  e  analisar  amostras  simples  ou  complexas  usando  data  frames),  sampling  (calcular  amostras  aleatórias  usando  diferentes  esquemas  de  amostragem) e o  survey (Análise de Amostras de Pesquisas Complexas).

25/07/2023

Tutorial 2

Modelagem conjunta de dados longitudinais e Análise de sobrevivência usando a biblioteca JM do Software R

A observação de desfechos de sobrevivência frequentemente requer algum tipo de acompanhamento dos indivíduos em um estudo, sendo comum coletar dados longitudinais e de sobrevivência concomitantemente. Pela perspectiva da análise de dados longitudinais, a sobrevivência pode ser uma fonte de perda não ignorável, enquanto do ponto de vista de análise de sobrevivência, biomarcadores observados ao longo do tempo de acompanhamento podem se comportar como variáveis endógenas dependentes do tempo. É comum que a análise destes dados seja realizada separadamente, mas ambas situações podem causar estimativas viesadas na modelagem de cada processo. O framework de modelos conjuntos se propõe a lidar com estas situações e investigar a interrelação entre ambos os tipos de desfechos, combinando modelos lineares de efeitos mistos com a regressão de riscos proporcionais através de uma função de verossimilhança conjunta, assumindo efeitos aleatórios comuns aos dois processos. O objetivo deste tutorial é apresentar situações em que o modelo conjunto atende as suposições teóricas e indagações da pesquisa, apresentar as modelagens independentes de cada tipo de dados, e subsequentemente a modelagem conjunta de desfechos longitudinais e de sobrevivência e suas interpretações, utilizando a biblioteca {JM} do software R. Pressupõe-se que os participantes tenham conhecimento de conceitos básicos de inferência estatística e de modelos de regressão, bem como habilidades básicas no software R.

26/07/2023

Tutorial 3

Extrememix – Um novo pacote Bayesiano para estimação em extremos

A Teoria de Valores Extremos (TVE) é uma área da Estatística que tem crescido nas últimas décadas devido a necessidade de se prever danos causados por grandes catástrofes climáticas. Uma das vertentes da TVE é a análise de excessos, que consiste em fixar um limiar e modelar os dados da cauda pela distribuição de Pareto Generalizada (GPD). Os primeiros trabalhos em modelagem da cauda consistiam em escolher o limiar visualmente por métodos gráficos. Métodos mais recentes que utilizam abordagem Bayesiana propuseram uma estimação completa, considerando uma distribuição para a não-cauda e a GPD na cauda, sendo que o limiar também é um parâmetro para ser estimado. Behrens et al. (2004) propuseram uma distribuição Gama na não cauda e GPD na cauda, enquanto Nascimento et al. (2012) propõe uma abordagem semi-paramétrica na não cauda por mistura de Gamas. O pacote extrememix do R implementa estas duas novas modelagens, onde o usuário pode inserir qualquer tipo de banco de dados associados a extremos. O pacote realiza a estimação Bayesiana destes modelos via MCMC, e fornece em sua saída estimadores pontuais e intervalares dos parâmetros, além de medidas de ajuste para comparação de modelos como BIC, AIC e DIC. Também, o pacote fornece estimativas para os quantis extremos, que é a medida mais importante quando analisamos este tipo de dados. Gráficos de estimação e retornos também estão disponíveis para visualização. 

 

27/07/2023

Tutorial 4

Luz, câmera, {pliman}! analisando imagens de plantas no R

Mensurações manuais de caracteres quantitativos são demoradas e propensas a erros. Em adição, o uso de variáveis em escalas qualitativas ordinais como escala de severidade de doenças em folhas- torna a análise dos dados mais desafiadora. Assim, métodos de fenotipagem de alto rendimento que possibilitam uma mensuração rápida, precisa e acurada de caracteres quantitativos de plantas são vitais para uma gama crescente de pesquisadores, como Agrônomos, Melhoristas, Fitopatologistas, Geneticistas, Ecologistas e Biólogos. Neste tutorial, veremos como o pacote R {pliman} pode ser utilizado para a análise de imagens, com foco especial em experimentos agronômicos. Guiando o participante ao longo de uma curva suave de aprendizado, será mostrado como o pacote pode ser utilizado para manipular arquivos de imagens, realizar operações morfológicas, segmentar objetos e analisar objetos. No tutorial, passaremos por exemplos práticos e reproduzíveis de (i) contagem e medidas de objetos (ex., área, perímetro, comprimento, largura, forma e textura); (ii) perfil da coloração de objetos; e (iii) fitopatometria. Para uma maior eficiência no processamento, será mostrado como esses procedimentos podem ser aplicados em lotes de imagens, permitindo a obtenção de uma grande massa de dados em um curto espaço de tempo. Os usuários acharão o pacote bastante fácil de usar e ficarão surpresos com a forma como a configuração de alguns argumentos permitirá o processamento de milhares de imagens enquanto desfrutam de uma xícara de café.

As inscrições para os minicursos podem ser feitas acessando 67ª RBras e 20º SEAGRO, fazendo login na área restrita e acessando loja virtual a partir de 5 de junho de 2023 (inscrições gratuitas)

24/07/2023

Minicurso 1

Modelos de Vetores de Suporte: Uma Introdução ao Aprendizado Estatístico de Máquina

Com o avanço da revolução digital, o acesso a dados das mais diversas variedades têm se tornado cada vez mais fácil, permitindo que diferentes setores da sociedade possam utilizar a ciência de dados para extrair conhecimento útil e de valor melhorando a tomada de decisões. Nesse contexto, o aprendizado estatístico desempenha um papel central.  Dentre as diversas técnicas de aprendizado estatístico, destacam-se os modelos de vetores de suporte (SVM – Support Vector Machines). Os SVMs são um tipo de algoritmo de aprendizado não-paramétrico que tem como objetivo maximizar a margem entre os dados de diferentes naturezas. No problema de classificação, por exemplo, eles buscam encontrar um hiperplano que melhor separe as classes dos dados. Os SVMs possuem diversas vantagens em relação a outros métodos de aprendizado de máquina. Uma delas é a capacidade de lidar com dados de alta dimensionalidade e sua alta flexibilidade, permitindo ser aplicados em diversos tipos de problemas, incluindo regressão e detecção de anomalias. Por conta de suas propriedades de estimação e predição, bem como a capacidade de lidar com dados complexos, os SVMs têm se tornado uma das ferramentas mais populares no campo do aprendizado estatístico. Seu uso é amplamente difundido em áreas como reconhecimento de padrões, análise de imagens, bioinformática e finanças, dentre outras. Neste minicurso, apresentaremos as principais definições dos modelos de vetores de suporte e demonstraremos sua aplicação prática utilizando as linguagens R e Python.  

Minicurso 2

Joint modeling multivariate outcomes with INLA

The joint modeling of multiple outcomes is a general topic of research and gained more attention recently in the literature of statistical modeling and particularly in the eld of health research. The outcomes are usually longitudinal (i.e., a collection of repeated measurements over time) and/or time to an event of interest. For example, this is common when having patient repeated visits over time in clinical trials to study some disease progress, and the time to death. There are multiple motivations for modeling these outcomes jointly, we may be interested in their correlations (e.g., the association between the marker and the event) for example to identify early the subset of the population the most at risk for an event. We may also want to handle heterogeneity in a population due to unmeasured confounders when studying the effect of a variable like treatment on the risk of event. Moreover, the longitudinal markers are often measured only until an event occurs, for example a patient may die during the follow-up and this censoring could be informative. Additionally, the longitudinal markers are usually endogenous (i.e., their values are affected by a change in the risk of event), which prevents from including them as a time-varying covariate in a survival model. Because these joint models involve multiple submodels (we may have multiple longitudinal markers with non-Gaussian distributions and multiple time to event outcomes simultaneously), the number of parameters to t and the correlations needed to be accounted for can make these models di cult to t with standard algorithms like Newton or Monte Carlo methods (i.e., long computation time and convergence issues). There is currently an important interest in the development of new algorithms (or tuning old ones) to t this class of models. In this short course, we will provide a brief description of joint models and how they t in the class of models that the Integrated Nested Laplace Approximations (INLA) can accommodate. Indeed, INLA is a very promising algorithm to t joint models, as demonstrated recently in a series of simulation studies. We will make use of the recent developments around this method, and the new R package INLAjoint that provides an user-friendly interface to t various joint models of multivariate longitudinal and survival outcomes. The aim of this course is to work through examples to illustrate the use of the new package with increasing complexity to illustrate the flexibility of the package. All the course materials as well as additional online resources will be provided to support users interested in this topic.

25/07/2023

Minicurso 3

Inferência Bayesiana em Extremos: Teoria e Aplicações computacionais

O grande número recente de catástrofes ambientais tem ascendido a necessidade de se prever a frequência de eventos extremos. A Teoria de Valores Extremos (TVE) foi desenvolvida para suprir esta necessidade. Basicamente, a TVE se ramifica em duas vertentes. A primeira é a análise dos máximos e mínimos, que é feita utilizando a distribuição de Valores Extremos Generalizada (GEV). A segunda é a análise de excessos acima de um limiar, que é feita utilizando a distribuição de Pareto Generalizada (GPD).  O avanço de novas metodologias e novos métodos computacionais permitiu novas abordagem para estas vertentes, incluindo abordagem Bayesiana e estimação via Markov Chain Monte Carlo (MCMC). O pacote MCMC4Extremes do R fornece ferramentas para estimação Bayesiana dos máximos pela distribuição GEV, além de uma nova distribuição alternativa, chamada de Dual Gamma Generalized Extreme Value distribution (GGEV), do trabalho de Nascimento et al. (2016).  O pacote extrememix fornece ferramentas para análise dos excessos pela distribuição GPD, abordando modelos que considera a distribuição GPD para a cauda e uma outra distribuição para a não-cauda. Behrens et al. (2004) considera uma distribuição Gama, enquanto Nascimento et al. (2012) considera uma abordagem semi-paramétrica por mistura de Gamas. A proposta deste minicurso é fazer uma breve introdução à parte teórica destes modelos, e mostrar na prática através dos pacotes citados como são feitas as estimativas de valores extremos, e que tipo de informação podemos extrair delas, como a previsão de ocorrência de valores que podem resultar em catástrofes naturais.

Minicurso 4

Introdução ao Python com Aplicações em Estatística Descritiva

Python é uma linguagem de programação interpretada de alto nível e que suporta múltiplos paradigmas de programação: imperativo, orientado a objetos e funcional. É uma linguagem com tipagem dinâmica e gerenciamento automático de memória. Foi lançada por Guido van Rossum em 1990, Holanda, como um sucessor da linguagem chamada ABC. Atualmente possui um modelo de desenvolvimento comunitário, aberto e gerenciado pela organização sem fins lucrativos Python Software Foundation, PSF. Está entre as linguagens de programação mais utilizadas no mundo e diversos serviços fazem o uso dessa linguagem, como reprodutores de streamings, serviços de compra/venda online, geolocalizadores, comunicação, entre outros. Na ciência Estatística não é diferente, onde metodologias baseadas em ciência de dados, machine learning e big data têm tido grande atenção para essa linguagem. Neste minicurso será apresentada a utilização da linguagem de programação Python para análises estatísticas descritivas, bem como conceitos básicos de programação nesta linguagem, como uso de estruturas condicionais e de repetição, vetores, listas, matrizes, tabelas e criação de funções. O minicurso terá duração de três horas e será dividido em dois dias, sendo que no primeiro dia será apresentada a linguagem Python e os conceitos básicos de programação previamente citados. Já o segundo dia será dedicado ao uso dessa linguagem em estatística descritiva. O curso tem caráter básico e é voltado para alunos de graduação e pós-graduação e profissionais que tenham o interesse em ter os primeiros passos com essa linguagem de programação. Espera-se que o minicurso fomente o uso do Python, estabeleça comparações com a linguagem R e que o aluno tenha condições de elaborar scripts mais avançados em Python. 

 

26/07/2023

Minicurso 1

Modelos de Vetores de Suporte: Uma Introdução ao Aprendizado Estatístico de Máquina

Com o avanço da revolução digital, o acesso a dados das mais diversas variedades têm se tornado cada vez mais fácil, permitindo que diferentes setores da sociedade possam utilizar a ciência de dados para extrair conhecimento útil e de valor melhorando a tomada de decisões. Nesse contexto, o aprendizado estatístico desempenha um papel central.  Dentre as diversas técnicas de aprendizado estatístico, destacam-se os modelos de vetores de suporte (SVM – Support Vector Machines). Os SVMs são um tipo de algoritmo de aprendizado não-paramétrico que tem como objetivo maximizar a margem entre os dados de diferentes naturezas. No problema de classificação, por exemplo, eles buscam encontrar um hiperplano que melhor separe as classes dos dados. Os SVMs possuem diversas vantagens em relação a outros métodos de aprendizado de máquina. Uma delas é a capacidade de lidar com dados de alta dimensionalidade e sua alta flexibilidade, permitindo ser aplicados em diversos tipos de problemas, incluindo regressão e detecção de anomalias. Por conta de suas propriedades de estimação e predição, bem como a capacidade de lidar com dados complexos, os SVMs têm se tornado uma das ferramentas mais populares no campo do aprendizado estatístico. Seu uso é amplamente difundido em áreas como reconhecimento de padrões, análise de imagens, bioinformática e finanças, dentre outras. Neste minicurso, apresentaremos as principais definições dos modelos de vetores de suporte e demonstraremos sua aplicação prática utilizando as linguagens R e Python.  

Minicurso 2

Joint modeling multivariate outcomes with INLA

The joint modeling of multiple outcomes is a general topic of research and gained more attention recently in the literature of statistical modeling and particularly in the eld of health research. The outcomes are usually longitudinal (i.e., a collection of repeated measurements over time) and/or time to an event of interest. For example, this is common when having patient repeated visits over time in clinical trials to study some disease progress, and the time to death. There are multiple motivations for modeling these outcomes jointly, we may be interested in their correlations (e.g., the association between the marker and the event) for example to identify early the subset of the population the most at risk for an event. We may also want to handle heterogeneity in a population due to unmeasured confounders when studying the effect of a variable like treatment on the risk of event. Moreover, the longitudinal markers are often measured only until an event occurs, for example a patient may die during the follow-up and this censoring could be informative. Additionally, the longitudinal markers are usually endogenous (i.e., their values are affected by a change in the risk of event), which prevents from including them as a time-varying covariate in a survival model. Because these joint models involve multiple submodels (we may have multiple longitudinal markers with non-Gaussian distributions and multiple time to event outcomes simultaneously), the number of parameters to t and the correlations needed to be accounted for can make these models di cult to t with standard algorithms like Newton or Monte Carlo methods (i.e., long computation time and convergence issues). There is currently an important interest in the development of new algorithms (or tuning old ones) to t this class of models. In this short course, we will provide a brief description of joint models and how they t in the class of models that the Integrated Nested Laplace Approximations (INLA) can accommodate. Indeed, INLA is a very promising algorithm to t joint models, as demonstrated recently in a series of simulation studies. We will make use of the recent developments around this method, and the new R package INLAjoint that provides an user-friendly interface to t various joint models of multivariate longitudinal and survival outcomes. The aim of this course is to work through examples to illustrate the use of the new package with increasing complexity to illustrate the flexibility of the package. All the course materials as well as additional online resources will be provided to support users interested in this topic.

27/07/2023

Minicurso 3

Inferência Bayesiana em Extremos: Teoria e Aplicações computacionais

O grande número recente de catástrofes ambientais tem ascendido a necessidade de se prever a frequência de eventos extremos. A Teoria de Valores Extremos (TVE) foi desenvolvida para suprir esta necessidade. Basicamente, a TVE se ramifica em duas vertentes. A primeira é a análise dos máximos e mínimos, que é feita utilizando a distribuição de Valores Extremos Generalizada (GEV). A segunda é a análise de excessos acima de um limiar, que é feita utilizando a distribuição de Pareto Generalizada (GPD).  O avanço de novas metodologias e novos métodos computacionais permitiu novas abordagem para estas vertentes, incluindo abordagem Bayesiana e estimação via Markov Chain Monte Carlo (MCMC). O pacote MCMC4Extremes do R fornece ferramentas para estimação Bayesiana dos máximos pela distribuição GEV, além de uma nova distribuição alternativa, chamada de Dual Gamma Generalized Extreme Value distribution (GGEV), do trabalho de Nascimento et al. (2016).  O pacote extrememix fornece ferramentas para análise dos excessos pela distribuição GPD, abordando modelos que considera a distribuição GPD para a cauda e uma outra distribuição para a não-cauda. Behrens et al. (2004) considera uma distribuição Gama, enquanto Nascimento et al. (2012) considera uma abordagem semi-paramétrica por mistura de Gamas. A proposta deste minicurso é fazer uma breve introdução à parte teórica destes modelos, e mostrar na prática através dos pacotes citados como são feitas as estimativas de valores extremos, e que tipo de informação podemos extrair delas, como a previsão de ocorrência de valores que podem resultar em catástrofes naturais.

Minicurso 4

Introdução ao Python com Aplicações em Estatística Descritiva

Python é uma linguagem de programação interpretada de alto nível e que suporta múltiplos paradigmas de programação: imperativo, orientado a objetos e funcional. É uma linguagem com tipagem dinâmica e gerenciamento automático de memória. Foi lançada por Guido van Rossum em 1990, Holanda, como um sucessor da linguagem chamada ABC. Atualmente possui um modelo de desenvolvimento comunitário, aberto e gerenciado pela organização sem fins lucrativos Python Software Foundation, PSF. Está entre as linguagens de programação mais utilizadas no mundo e diversos serviços fazem o uso dessa linguagem, como reprodutores de streamings, serviços de compra/venda online, geolocalizadores, comunicação, entre outros. Na ciência Estatística não é diferente, onde metodologias baseadas em ciência de dados, machine learning e big data têm tido grande atenção para essa linguagem. Neste minicurso será apresentada a utilização da linguagem de programação Python para análises estatísticas descritivas, bem como conceitos básicos de programação nesta linguagem, como uso de estruturas condicionais e de repetição, vetores, listas, matrizes, tabelas e criação de funções. O minicurso terá duração de três horas e será dividido em dois dias, sendo que no primeiro dia será apresentada a linguagem Python e os conceitos básicos de programação previamente citados. Já o segundo dia será dedicado ao uso dessa linguagem em estatística descritiva. O curso tem caráter básico e é voltado para alunos de graduação e pós-graduação e profissionais que tenham o interesse em ter os primeiros passos com essa linguagem de programação. Espera-se que o minicurso fomente o uso do Python, estabeleça comparações com a linguagem R e que o aluno tenha condições de elaborar scripts mais avançados em Python. 

 

MESA REDONDA DO CONSELHO REGIONAL DE ESTATÍSTICA 3ª REGIÃO - CONRE-3 – 26/07/2023 (15:00 – 16:30)

Formação acadêmica em Bioestatística

No Brasil, apesar da presença de importantes pesquisadores na área de Bioestatística, a formação acadêmica ainda é tímida, e apenas a Universidade Estadual de Maringá (UEM – Maringá/Paraná) tem o mestrado na área, “Mestrado em Bioestatística” com duas linhas de pesquisa, “Métodos quantitativos aplicados na saúde” e “Estatística aplicada”. Há alguns programas de pós-graduação em Biometria, Epidemiologia e Estatística Aplicada às áreas de Agronomia e Pecuária. No Brasil não há bacharelado em Bioestatística, mas nos Estados Unidos, por exemplo, há muitas ofertas de cursos de graduação e pós-graduação nessa área. Há espaço para mais cursos no Brasil? Como melhorar as capacitações na área, inclusive em nível de Especialização? As abordagens acadêmicas precisam se basear em técnicas computacionais que se desenvolveram e se modernizaram nos últimos anos?

Ensino de Bioestatística e Ciência de Dados para Pesquisas aplicadas

A compreensão das principais técnicas de estatística, assim como saber programar, são fundamentais para todos os profissionais, incluindo os da área da saúde. Há oportunidades e necessidades crescentes, por isso, é importante abordar estatística e programação entre alunos que são da área da saúde. Como o fortalecimento da “ciência de dados” no mercado de trabalho afeta os conteúdos dos cursos e a percepção dos alunos quanto à (bio)estatística?

O mercado para bioestatísticos, estatísticos e cientistas de mercado

Há muito espaço para esses profissionais com conhecimento em ESTATÍSTICA. Hoje, há um crescente interesse pelo CIENTISTA DE DADOS, cujo objetivo principal é, também, ANÁLISE DE DADOS. Empresas do ramo de cosméticos, medicamentos ou alimentação (humano ou animal), hospitais, centros de pesquisas médicas (incluindo epidemiologia, saúde pública), agências da saúde (seguradoras, por exemplo), agronegócios (desenvolvimento de insumos agrícolas ou melhoramentos genéticos de animais ou plantas), são alguns dos exemplos de área cuja participação do estatístico é fundamental. O mercado percebe a importância da boa formação em bioestatística? Como é remuneração nessa área?

Sessão Ponta – 26/07/2023 (19:30 – 20:30)

Modelagem estatística na pecuária: desafios do tratamento de pesagem voluntária

A fusão da inteligência de gestão e de precisão conectou a pesquisa, a genética, a produção e o mercado para catalisar a transformação da pecuária. Duas marcas viraram uma só para gerar mais resultados para todos. 

Com propósito de tornar a pecuária mais lucrativa e sustentável, na Ponta são utilizadas metodologias estatísticas para as análises dos dados. Essas aplicações são fundamentais para aprimorar os processos e a tomada de decisões estratégicas embasadas em informações precisas e confiáveis. Será apresentado um algoritmo desenvolvido para estimar o peso e o ganho de peso real dos animais. O primeiro desafio refere-se ao tratamento dos dados de pesagens voluntárias, que necessitam de uma etapa robusta de validação e tratamento de outliers. Ainda, para a obtenção de estimativas confiáveis do peso e ganho de peso real dos animais, é utilizada uma combinação de modelos paramétricos e não paramétricos.

StatThon: o Hackathon da RBras

O StatThon: o Hackathon da RBras tem o objetivo de reunir acadêmicos, professores e pesquisadores das diferentes áreas da Estatística para competirem em equipe com propósito de apresentarem abordagens de metodologias de análises estatísticas em banco de dados com diferentes características. O StatThon será um ambiente transformador, com interações e troca de experiências e de conhecimentos entre os integrantes de cada equipe de uma forma dinâmica e propositiva.

A maratona possibilitará aos participantes vivenciar desafios durante o processo de análise estatística de dados experimentais de forma descontraída, agradável, e com muito entusiasmo.

Espera-se, ao final da maratona, que sejam apresentadas abordagens estatísticas com soluções eficientes, eficazes, inteligentes e inovadoras, com  resultados aplicáveis na prática.

Coordenador

Alessandro Dal’Col Lúcio

Universidade Federal de Santa Maria

Possui graduação em Agronomia pela Universidade Federal do Espírito Santo (1994), mestrado em Agronomia pela Universidade Federal de Santa Maria (1997), doutorado em Agronomia (Produção Vegetal) [Jaboticabal] pela Universidade Estadual Paulista Júlio de Mesquita Filho (1999) e pós-doutorado no Instituto Politécnico de Bragança [Portugal] (2015). É professor titular do Departamento de Fitotecnia do Centro de Ciências Rurais da Universidade Federal de Santa Maria e líder do grupo de pesquisa Experimentação. Tem experiência na área de Probabilidade e Estatística, com ênfase em Experimentação Agrícola, atuando principalmente nos seguintes temas: planejamento de experimentos, precisão experimental, amostragem, modelos de regressão e variabilidade

Mentores

Alessandro Dal’Col Lúcio

Universidade Federal de Santa Maria

Possui graduação em Agronomia pela Universidade Federal do Espírito Santo (1994), mestrado em Agronomia pela Universidade Federal de Santa Maria (1997), doutorado em Agronomia (Produção Vegetal) [Jaboticabal] pela Universidade Estadual Paulista Júlio de Mesquita Filho (1999) e pós-doutorado no Instituto Politécnico de Bragança [Portugal] (2015). É professor titular do Departamento de Fitotecnia do Centro de Ciências Rurais da Universidade Federal de Santa Maria e líder do grupo de pesquisa Experimentação. Tem experiência na área de Probabilidade e Estatística, com ênfase em Experimentação Agrícola, atuando principalmente nos seguintes temas: planejamento de experimentos, precisão experimental, amostragem, modelos de regressão e variabilidade

Eric Batista Ferreira

Universidade Federal de Alfenas

Professor Associado 4 do Departamento de Estatística da Universidade Federal de Alfenas Possui formação em Laticínios (Instituto Cândido Tostes, 1998), Engenharia Agronômica (UFLA, 2002), Matemática Licenciatura (UNIFAL-MG, 2012), Física Licenciatura (UNIFAL-MG, 2020), Mestrado em Estatística e Experimentação Agropecuária (UFLA, 2004), Doutorado em Estatística e Experimentação Agropecuária (UFLA/Open University - Inglaterra, 2007), Pós-doutorado em Estatística Multivariada (UFLA, 2009) e Pós-doutorado em Sensometria (NOFIMA - Noruega, 2013). Tem experiência em Sensometria, Estatística Multivariada, Estatística Experimental, Probabilidade e Estatística aplicadas, Controle Estatístico de Processo e Cientometria

Taciana Villela Savian

ESALQ/USP

Possui graduação em Zootecnia pela Universidade Federal de Lavras (2002), mestrado em Agronomia (Estatística e Experimentação Agropecuária) pela Universidade Federal de Lavras (2005), doutorado em Estatística e Experimentação Agropecuária pela Universidade Federal de Lavras (2008) e pós-doutorado (PRODOC) pela Universidade Federal de Lavras (2010). Atualmente é professora da Escola Superior de Agricultura "Luiz de Queiroz" da Universidade de São Paulo (USP). Tem experiência na área de Modelos de Regressão Não-Linear, atuando principalmente nos seguintes temas: regressão não-linear, modelo de degradabilidade ruminal, curvas de crescimento animal e vegetal

Tiago Olivoto

Universidade Federal de Santa Catarina

Engenheiro agrônomo pela Universidade do Oeste de Santa Catarina (2014), Mestre em Agronomia: Agricultura e Ambiente pela Universidade Federal de Santa Maria (2017) e Doutor em Agronomia com ênfase em Melhoramento Genético Vegetal e Experimentação Agrícola pela Universidade Federal de Santa Maria (2020). Atualmente é Professor Adjunto A1 do Departamento de Fitotecnia da Universidade Federal de Santa Catarina (UFSC), atuando na área de Melhoramento Genético Vegetal e Experimentação Agrícola. Exerce atividades relacionadas ao planejamento, condução e avaliação de experimentos com ênfase no desenvolvimento e aperfeiçoamento de métodos estatístico-experimentais para avaliação de ensaios multi-ambientes em melhoramento genético de plantas. Tem experiência em análise de ensaios multi-ambientes, análise multivariada, planejamento de experimentos, interação genótipo-vs-ambiente, modelos mistos e parâmetros genéticos

Regulamento do StatThon

Inscrições e avaliação

  • Podem se inscrever alunos de graduação, pós-graduação, professores e pesquisadores já inscritos na 67ª RBras e 20º SEAGRO
  • As inscrições podem ser feitas acessando 67ª RBras e 20º SEAGRO, fazendo login na área restrita e acessando loja virtual a partir de 5 de junho de 2023 (inscrições gratuitas)
  • O número de vagas é limitado a 45. Assim, em caso de desistência na participação no StatThon deve ser imediatamente e antecipadamente informada à Comissão Organizadora (67rbras20seagro@gmail.com) para possibilitar a inclusão de novos interessados
  • Serão formadas equipes com até 15 participantes. A distribuição será feita no primeiro dia do evento
  • A composição das equipes será de acordo com o nível de formação dos inscritos, buscando a homogeneidade e proporcionalidade
  • Os trabalhos de cada equipe ocorrerão de 24 a 27 de julho de 2023, durante a semana da 67ª RBras e 20º SEAGRO. O cronograma será apresentado pelos Mentores no dia 24 de julho
  • Cada equipe receberá auxílio dos mentores que irão auxiliar durante todo o processo
    • O projeto apresentado pode conter arquivos como: Script R/Python, relatórios R/Python Markdown, Relatório em PDF ou HTML, na forma de relatório ou slides
    • Todo o projeto construído pelas equipes deve estar aberto e reproduzível.
  • Os projetos serão validados pelos mentores do StatThon
  • Os projetos serão avaliados pelos presentes na apresentação dos mesmos, dia 27 de julho em sessão específica para tal, que indicarão a ordenação em ordem decrescente as propostas apresentadas
  • Os critérios de avaliação irão considerar os aspectos:
    • A qualidade da problematização
    • A reprodutibilidade e clareza da escrita dos códigos
    • O grau de adequação ou pertinência da metodologia de análise estatística ou solução aplicada
    • A qualidade da apresentação oral do projeto
    • O cumprimento do tempo disponível para fazê-lo (20 minutos)
    • A criatividade do projeto
  • A premiação será definida pela organização do StatThon juntamente com a Comissão Organizadora da 67ª RBras e 20º SEAGRO
  • As equipes serão ordenadas de forma decrescente com relação a pontuação total obtida das fichas de avaliação
  • A equipe que ficar na primeira posição será premiada

Dados

  • Os dados serão disponibilizados no dia 24 de julho de 2023, início do StatThon

Infraestrutura

  • O espaço coletivo será organizado e disponibilizado pela Comissão Organizadora da 67ª RBras e 20º SEAGRO
  • Os participantes deverão portar seus próprios equipamentos computacionais com softwares e/ou plataformas a serem utilizadas na maratona
  • Os participantes deverão estar com seus equipamentos conectados à rede wi-fi disponibilizadas pela Comissão Organizadora da 67ª RBras e 20º SEAGRO
  • Os mentores do StatThon prestarão apoio técnico para as equipes

Embrapa Soja

A Embrapa Soja é uma das 43 unidades de pesquisa da Empresa Brasileira de Pesquisa Agropecuária – Embrapa. Sua contribuição histórica ao agronegócio da soja no Brasil coloca a Unidade como referência mundial no desenvolvimento de tecnologias para a cultura em regiões tropicais. Entre suas contribuições estão o desenvolvimento de cultivares adaptadas a regiões de baixas latitudes, o controle biológico de pragas, as técnicas de manejo e conservação do solo, entre outras. A Unidade também é responsável pela pesquisa de girassol para todo o território nacional e pela pesquisa de trigo, desenvolvida em parceria com a Embrapa Trigo (Passo Fundo – RS) e o Instituto de Desenvolvimento Rural do Paraná – IDR-PR para o Estado do Paraná.

Roteiro da “Visita na Embrapa

O ônibus irá passar nos hotéis Comfort Suites, Vilallba, Harbor Inn e LondriStar para buscar os participantes da 67ª RBras e 20º SEAGRO inscritos na “Visita na Embrapa”. A Comissão Organizadora irá entrar em contato com os inscritos que não estiverem hospedados nesses hotéis para comunicar sobre o ponto de embarque. Só poderão entrar no ônibus as pessoas que estiverem inscritas na “Visita na Embrapa”

  -> 08:00 – O ônibus sai da Universidade Estadual de Londrina e vai buscar os participantes nos hotéis;

 

  -> Entre 08:45 e 09:00 – Chegada na Embrapa Soja;

 

  -> 09:00 – 09:20 – Recepção, boas-vindas e apresentação do vídeo institucional;

  • Adilson de Oliveira Junior, Chefe Adjunto de Administração;

 

  -> 09:20 – 10:00 – Apresentação: A Embrapa Soja e suas principais linhas de pesquisa;

  • Ivani de Oliveira Negrão Lopes, Pesquisadora;

 

  -> 10:00 – 10:10 – Intervalo para o café;

 

  -> 10:10 – 12:00 – Visita às instalações da Embrapa Soja:

  • Laboratório de criação de percevejos;
  • Laboratório de biotecnologia vegetal;
  • Campo experimental (abrigos móveis);

 

  -> 12:00 – 13:00 – Intervalo para o almoço*, registro fotográfico e término da visita;

  *almoço (O valor da refeição é de R$ 39,90 o quilo e/ou R$ 25,90 o buffet livre. As bebidas não estão inclusas nesse valor).

 

  -> Entre 13:00 e 13:30 – O ônibus sairá da Embrapa Soja e levará os participantes até o Aurora Shopping (local da 67ª RBras e 20º SEAGRO).

Inscrições para a “Visita na Embrapa”

As inscrições para a “Visita na Embrapa” são gratuitas, limitadas (um ônibus) e podem ser feitas acessando 67ª RBras e 20º SEAGRO, fazendo login na área restrita e acessando loja virtual a partir de 5 de junho de 2023 (inscrições gratuitas). No caso de dúvidas, entrar em contato com o email 67rbras20seagro@gmail.com