Trabalho Reconhecido

CURITIBA (46) Semana passada recebi a noticia de que recebi um premio da IBM, o 2017 IBM Faculty Award. É o reconhecimento da minha pesquisa ao longo desses anos e também da colaboração com meu colega, Dr. Paulo Cavalin, da IBM Research. Uma bela maneira de encerrar as atividades de pesquisa desse ano que foi bem produtivo.

Advertisements

Dr. Paulo

CURITIBA (+1) Ontem aconteceu a defesa de doutorado do meu aluno Paulo Ricardo Lisboa de Almeira. Paulo fez seu mestrado no DINF/UFPR sob a minha orientação e agora finalizou seu doutorado. A tese “ADAPTING THE DYNAMIC SELECTION OF CLASSIFIERS APPROACH FOR CONCEPT DRIFT SCENARIOS” foi avaliada e aprovada pela banca examinadora, a qual foi composta pelose seguintes especialistas em seleção dinâmica de classificadores

  • Prof. Dr. George Cavalcanti (UFPE)
  • Dr. Paulo Cavalin (IBM Research)
  • Dr. Rafael M. O. Cruz (ETS/Canada)
  • Prof. Dr. Robert Sabourin (ETS/Canada)
  • Prof. Dr. Daniel Weingaertner (DINF, UFPR)
  • Prof. Dr. Luiz Eduardo S. Oliveira (DINF, UFPR)

Supercomputadores

CURITIBA (wet… five days) Ontem discutíamos na universidade sobre o novo supercomputador que os chineses acabaram de lançar. Trata-se do Sunway Taihulight, um brinquedinho com 10.649.600 cores (isso mesmo, 10 milhões de cores) o qual tem uma capacidade teórica  de processamento de 125 petaflops. Só lembrando,  FLOP (Floating-point Operations per Seconds) é a unidade usada para determinar o desempenho de um computador. Em geral usamos múltiplos de flops como megaflops (10^6), gigaflops (10^9), teraflops (10^12), petaflops (10^15), etc.. Só para ter uma ideia, aquele Intel i7 que você tem no seu desktop atinge cerca de 20 Gigaflops.

Alguns fatos interessantes sobre isso: i) quinze anos atras a china não tinha nenhum supercomputador na lista dos 500 supercomputadores mais rápidos do mundo, ii) hoje tem um que é cinco vezes mais rápido do que o mais rápido americano, iii) ele continuará sendo o mais rápido até 2018 pelo menos, pois nada do que vai ser lançado até lá vai supera-lo, iv)  a máquina não usa processadores Intel.

O departamento de comercio americano, alegando questões de segurança, não permitiu que a Intel vendesse seus Intel Xeon para os chineses. Banana para os americanos, foi o que o governo chinês deve ter dito quando anunciou a conclusão do projeto.

E por aqui, nosso supercomputador hospedado no LNCC (Laboratório Nacional de Computação Científica) foi desligado por falta de dinheiro para pagar a conta de luz. Isso mesmo, o supercomputador que tem capacidade de processamento de 1.1 petaflops está parado pois não temos dinheiro pra pagar a luz. E parado com ele estão todas as pesquisas que dependiam do seu poder de processamento. Sad but true!

 

 

Índice H

CURITIBA (measuring) O que é o tal do índice H e pra que serve? Essa é uma pergunta que geralmente escuto dos alunos de pós-graduação.  Em 2005, um físico chamado J. E. Hirsch, intrigado com os critérios usados para avaliar a produção científica de pesquisadores, propôs um índice [1] que leva em consideração não somente a quantidade de artigos escritos, mas também a quantidade de citações que o mesmo recebe. Antes do índice H, os pesquisadores eram avaliados por um dos dois critérios ou ainda pela relação entre os dois.

  1. Número total de artigos escritos. Vantagens: Mede a produção. Desvantagem: Não mede o impacto da produção.
  2. Número total de citações. Vantagem: Mede o impacto total. Desvantagem: Pode ser inflada por um único trabalho, como um livro campeão de vendas.

O índice H junta esses dois critérios em um único número usando uma regra bastante simples: Um pesquisador tem índice H se H artigos publicados tiverem pelo menos H citações cada um. Por exemplo, para ter um índice H = 20, o pesquisador deve ter publicado 20 artigos que tenham pelo menos 20 citações cada um. A Figura abaixo também exemplifica o índice h.

Representação do indice h (Fonte: Wikipedia)

Representação do indice h (Fonte: Wikipedia)

Depois de um certo limiar, é bastante difícil aumentar o valor de H pelos seguintes motivos. Primeiro, nem todos os artigos serão úteis para aumentar o índice. Alguns artigos vão receber poucas citações simplesmente por não serem muito relevantes.  Segundo, em geral um artigo tem um certo período de popularidade. Depois de um certo tempo, seu número de citações diminui consideravelmente.

Por outro lado, o valor de H nunca vai cair. Mesmo depois de se aposentar e resolver pedalar todos os dias, o pesquisador vai manter seu índice H. Dependendo da popularidade dos seus últimos trabalhos, seu índice pode até aumentar.

Mas o que é um bom índice H? Segundo Hirsch, um índice H = 20 para um pesquisador com 20 anos de carreira, indica um pesquisador de sucesso. H = 40 para os mesmos 20 anos caracteriza pesquisadores excepcionais, geralmente trabalhando com grandes equipes em universidades de ponta. H = 90 para 30 anos de carreira caracteriza os pontos fora da curva (como por exemplo G. Hinton, um dos pais do deep learning). Um dado interessante citado por Hirsch é que 84% dos ganhadores de prêmio nobel possuem índice H >= 30, indicando que são pesquisadores com uma carreira consistente e não surgem do dia pra noite.

Mas é preciso esperar 20 anos para saber se o pesquisador teve sucesso? Não necessariamente. Em geral, espera-se que o índice H seja acrescido de 1 todo ano até o vigésimo ano. O que vier depois é lucro. E quando começa a carreira do pesquisador? Em geral alguém começa a ser produtivo na segunda metade do doutorado. Então pode-se afirmar que alguém que defendeu o doutorado há 10 anos e tem índice H = 10 está no caminho certo.

E como consultar o indice H de alguém? Existem diferentes bases de dados com diferentes formas de indexação, como a ISI e a Scopus. Entretanto, a mais fácil de usar e que tem se tornado padrão, pela simplicidade, acessibilidade e poder de indexação, é o google scholar. Basta digitar o nome do pesquisador e voilà. Se você quiser que seu nome apareça no scholar, seu perfil deve ser público.

E quem usa o indice H? Quando você escreve um projeto pedindo dinheiro para qualquer órgão de fomento, pode ter certeza que quem avalia seu projeto vai consultar seu índice H. Em projetos de cooperação internacional você deve colocar essa informação no seu CV.

[1] J. E. Hirsch, An Index to Quantify an Individual’s scientific research output, PNAS, 102(46):16569-16572, 2005.

Distribuição de Bolsas de Produtividade na Computação

CURITIBA (void) Depois de uma discussão com alguns colegas sobre a relação oferta/demanda de bolsas de produtividade na área de computação, resolvi verificar alguns dados. A informação que me foi passada (numa mesa de bar, diga-se de passagem) era que o CNPq tinha feito um corte de 30% na bolsas de produtividade no fim de 2015.

Para quem não está familiarizado com o assunto, as bolsas de Produtividade em Pesquisa (PQ) são destinadas aos pesquisadores que se destaquem entre seus pares, valorizando sua produção científica segundo critérios normativos, estabelecidos pelo CNPq, e específicos, pelos comitês de assessoramento do CNPq.

Segundo o mapa de investimento disponível no site do CNPq, o governo tem cerca 15000 bolsas de produtividade em pesquisa (PQ) e tecnologia (DT) implementadas. Dessas 15 mil bolsas, 398 (2.65%) são destinadas a Ciência da Computação e 74 (0.49%) a área de Tecnologia da Informação e Comunicação. Considerando essas duas áreas como Computação, a área tem hoje 472 bolsistas.

O CNPq disponibiliza somente o investimento atual, não sendo possível comparar com o passado. Entretanto, encontrei um levantamento de 2013 feito pelo Prof. Alexandre N. Duarte da UFPB. Nele consta que em 2013, a área de computação tinha 467 bolsistas. Ou seja, não houve corte de 30%. Apenas o número de bolsas não cresceu nos últimos três anos, apesar da demanda ter crescido. Outro ponto que vale a pena mencionar é que o valor da bolsa não sofre reajuste desde 2008. E pelo andar das carruagem, não teremos nem reajuste e nem acréscimo no número de bolsas tão cedo.

Aproveitando que baixei os dados do site do CNPq, fiz um script para sumarizar os dados e comparar com o ano de 2013. A distribuição de bolsas por classe continua quase a mesma com grande concentração na classe 2 (bolsas sem taxa de bancada)

[table id=1 /]

Diferentemente do levantamento de 2013, quando as bolsas estavam espalhadas em 63 instituições, agora as mesmas estão distribuídas em 74 instituições de ensino e pesquisa. As 10 instituições com mais bolsistas continuam as mesmas e ainda concentram cerca de 60% dos bolsistas de produtividade. O que salta aos olhos é o aumento significativo na quantidade de bolsistas na UFMG. Em 3 anos o programa da UFMG ganhou nada menos que 12 bolsistas de produtividade.

[table id=6 /]

 

Best Paper

CURITIBA (sem chuva hoje, por enquanto) Recebi um email do meu amigo Paulo hoje pela manhã com a notícia que nosso artigo “An Adaptive Multi-level Framework for Forest Species Recognition” foi premiado com o Best Paper Award na IV Brazilian Conference on Intelligent Systems (BRACIS 2015) que está acontecendo essa semana em Natal.

Best Paper

Infelizmente não consegui estar em Natal essa semana. Depois de tantas viagens esse ano, se eu fosse pra lá estaria correndo risco de vida aqui em casa…. Agradecimentos especiais ao Paulo, da IBM Research, por ter feito grande parte deste trabalho!

E como dizia Dorothy Parker, “I hate writing, I love having written”.