Visão Computacional

De Pontão Nós Digitais

Esta é a pagina principal do curso de visão computacional de graduacao e pos-graduacao ministrado em 2013/2 no IPRJ/UERJ, de utilidade geral para a formação de programadores de nivel intermediario e avancado para desenvolvimento de software multimídia, aplicativos interativos, dentre outros.

Terminator.jpg

Informacoes gerais

  • Instrutor: prof. Ricardo Fabbri, Ph.D.
  • Periodo: 2o. Semestre de 2013, voltado ao 10o. periodo de Engenharia da Computacao
  • Tercas 2:20pm-4:00pm sala 211 e Quintas 1:20pm-3:10pm, sala 212. Alguns dias no Lab Inf xx

Pre-requisitos

O aluno deverá saber conceitos fitur samsung z2 básicos de programação e conseguir aprender linguagens rapidamente sob demanda durante o curso. Experiência previa com algebra linear e calculo vetorial altamente recomendados.

Software

A linguagem a ser utilizada para aprendizado sera o Scilab, C++, e Pd.

Conteudo aproximado

  • Introducao, processamento de imagens basico, ajustes, morfologia matematica
  • Filtros, Transformadas de Fourier, Piramides e Wavelets
  • Deteccao e Ligacao de bordas e pontos de interesse
  • Cores e Iluminacao
  • Reconstrucao 3D e Auto-calibracao esparsa de Cameras
    • Geometria de visao estereo bifocal, trifocal e multifocal
  • Fluxo optico e estimacao de movimento 3D denso e nao-rigido
  • Reconhecimento, Aprendizado de Maquina, Manifold Learning

Recursos principais

Bibliografia

SzeliskiBookFrontCover.png

  • Principal 2: Shape Classification and Analysis, 2nd. Ed., Luciano da Fontoura Costa & Roberto Marcondes Cesar Jr.
    • Usaremos este livro para muito do material dado em aula

000d3e65_medium.jpeg

Aulas

Um video sobre aspectos interessantes da tecnologia sera apresentado a cada aula.

  • Introducao - videos, demos, formato do curso
  • Aula 2 - conceitos fundamentais e notacao
  • Equalizacao de Histogramas e Outras Tecnicas de Realce - 10/out/2013
  • Filtragem de Imagens no dominio espacial, parte 1
  • Harga Mesin Cuci Elextrolux
  • Filtragem de Imagens no dominio da frequencia, transformada de Fourier, aliasing (pdf | keynote)
    • inspiring video: water spiral vs framerate
  • Morfologia Matematica, Geometria Discreta, Componentes Conexos, Transformadas de Distancia, Esqueletizacao, Diagramas de Voronoi (pdf | keynote) - 16/out/2013
  • Pontos de Interesse - ate 5/nov/2013
  • Ajuste robusto: Hough Transform, Robust least squares, basico de RANSAC
  • RANSAC e ajuste robusto de modelos
  • Cores, Luz, Fisica e Percepcao (pdf | keynote) - mais de 100MB
    • Aprofundamento: colorimetria, fotometria, iluminacao avancada
    • Calibracao de cores, white balance, filtros, codificacao de imagens 3D, highlights, fenomenos naturais de cor
    • Leitura - Sobre temperatura de luzes que nao emitem como corpo negro [2]
    • Leitura interessante - a cor media das estrelas do universo [3]
  • Modelo de geracao de imagens RAW/JPEG em cameras reais para renderizacao realistica: Estudo de Zickler et. al. (Dez/13, 07/jan/14)
  • Tecnicas de programacao multimidia em tempo real (em andamento)
  • Modelo de luz, radiancia espectral, sombreamento (shading) (em andamento)
  • em andamento

Recursos adicionais

Links

Provas

Tarefas

Labs

Download dos Labs

Todo material dos trabalhos (imagens, pdfs, etc) pode ser baixado e atualizado pelo Git [4]:

 git clone https://github.com/rfabbri/vision-course.git

Lab1: Processamento ponto a ponto

  • Enunciado
  • As imagens necessarias estao no repositorio Git[5]
  • Data de entrega: quarta-feira 13/Nov/2013 ate a meia-noite. Atrasos serao aceitos porem somente com reducao na nota.

Lab2: Detecção de múltiplas retas e circulos

  • Enunciado
  • As imagens necessarias estao no repositorio Git[6]
  • Data de entrega: terca-feira 3/Dez/2013 ate a meia-noite. Atrasos serao aceitos porem somente com reducao na nota.

Instrucoes para Submissao

  • A solucao deve ser digitada em um relatorio e entregue no formato pdf.
  • Incluir tambem todo o codigo fonte e dados gerados
  • Enviar um arquivo zipado com tudo (scripts scilab, relatorio, etc) por email, no formato:
<sobrenome>-<nome>-visao-computacional-lab<numero_lab>.zip

Projetos

Toy Piano

Build an interactive toy piano or toy keyboard where you have colored objects representing each letter of the alphabet, and the user would touch each object and the computer would react to the persons' touch. To make this easy and cheap, this could work with a webcam and color detection, and the person/baby could use a black glove/sock.

letter+mat.jpg

Sistema de Seguranca para Construcao Civil

Neste projeto o estudante ira desenvolver partes de um sistema de monitoramento de construcao civil utilizando uma camera de seguranca IP e uma camera barata PS3Eye. Numa construcao civil, seja individual ou publica, ha sempre artefatos a serem rastreados, tal como o numero aproximado de pessoas trabalhando, o numero de sacos de cimento e de outro material, bem como o proprio registro em video e 3D de cada etapa da obra desde o preparo do terrendo, a fundacao, e a edificacao. Para iniciar, o aluno exploraria sistemas existentes e em seguida desenvolveria um sistema em tempo real para o processamento das imagens - deteccao de intrusos durante a noite, deteccao de faces, uso de uma segunda camera para medir altura, deteccao de atividade (numero de pessoas ociosas, numero de pessoas trabalhando e em que).

11256659.jpeg

Photometric Stereo Using Spherical Harmonic Representation of Lighting

The goal of this project is to implement the photometric stereo approach developed by Basri et. al., which builds on their own general illumination model based on spherical harmonics. Any function defined on a sphere can be analyzed in the frequency domain, which is analogous to Fourier analysis with similar implications, such as the conclusion that any function defined on a sphere can be written as a linear combination of some harmonics (spherical harmonics in this case). Using this, the paper argues that general illumination can be thought of as a function on a sphere, with the scene being illuminated being at the center of this sphere. As long as the surfaces in the scene are Lambertian, only 9 spherical harmonic coefficients are needed to model a general illumination with over 99% accuracy.

This model can be used in many computer vision applications, such as object detection and recognition. Here we are primarily interested in the photometric stereo for general, unknown illumination. The student is to put together a photometric stereo system using this harmonic representation of lighting.

example_spherical_harmonics.jpg

Sistema de reconhecimento de gestos de LIBRAS

Neste sistema o aluno implementara o reconhecimento de gestos para cada letra em LIBRAS. A entrada de um reconhecimento sera um video-clip contendo um gesto, e a saida sera a letra ou palavra digitada. O projeto devera iniciar com um levantamento do estado da arte, em seguida a implementacao, que devera usar um metodo de aprendizagem de variedades (manifold learning) como Diffusion Maps.

Sistema de reconstrucao 3D de ondas do mar

O aluno devera iniciar pela deteccao de cristas, seguido pelo estudo detalhado do fluxo optico e rastreamento das cristas para reconstrucao 3D de modelos de movimento.

Processamento de imagens de embriao (varios projetos)

Um dos grandes problemas estudados em biologia eh o desenvolvimento embrionario - como as celulas de um embriao se diferenciam e formam padroes que dao origem `as diversas partes de um organismo. Este projeto consiste em analisar imagens de embrioes de Drosophila, identificar nucleos, distancias, extrair medidas, etc. Ha material aqui para mais de um projeto.

Fruitflyembryo.jpg

Students

  • Daiany: Photometric Stereo
  • Mauro: Reconstruction of the surface of the sea (parts of the system)
  • Lucas: Drosophila
  • Anderson Cordeiro: LIBRAS (sign language recognition)
  •  ?: Toy piano mat
  • Rana: security?

Criterio de Avaliacao

  • Graduacao: Nota = 70% projetos e tarefas, 30% prova
  • Pos-graduacao: Nota = 100% projetos e tarefas
  • Bonus: top 2 projetos (que atingirem nivel de excelencia) ganharao +3 pontos na media