quarta-feira, 29 de junho de 2016

Distribuição normal - Curva Normal - Shapiro wilk

Quando estamos trabalhando com poucos números é relativamente mais fácil identificar se nossa lista de números se enquadra em uma curva normal. Lembrando, identificar se nossa distribuição é normal vai nos ajudar a saber que tipo de teste estatístico deveremos usar em nossas análises.

Uma forma simples de saber isso é aplicar o teste “Shapiro wilk” e analisar o valor de p-value obtido com a realização desse teste. Se o valor for inferior a 0.05 significa que a distribuição NÃO é uma normal, caso contrário ela é uma normal.

Por exemplo: em “R” uma forma de fazer isso é aplicando o teste shapiro.test em uma lista de dados.

Imagine uma lista composta pelos números = (1,2,3,3,4,5,6,8,12,22,36,55), será que essa distribuição é uma normal? Para sabermos isso basta declararmos uma lista

numeros <-c span="">
shapiro.test(numeros)

Shapiro-Wilk normality test
 
data:  numeros
W = 0.72693, p-value = 0.001551

Como podemos ver o valor de p-value é inferior a 0.05 o que representa que essa distribuição não é uma normal. Isso pode ser constatado visualmente por meio da apresentação de um histograma, vide a imagem abaixo que, realmente, temos a constatação que não se trata de uma distribuição normal.

hist(numeros)


domingo, 26 de junho de 2016

Média, Mediana e Moda

Quando usar cada uma dessa medidas estatísticas, média, mediana e moda? Isso depende do tipo de dado que estamos trabalhando.

A média é uma maneira de encontrar a tendência central de uma distribuição, contudo, a média é uma medida muito sensível a existência de outliers, ou seja, pontos fora da curva. Ela é uma boa opção quando temos a distribuição estável, sem a existência de elementos que possam distorcer a distribuição. Para tipo de dado ordinais a média não é uma boa opção para estabelecimento da tendência central.

Outra forma de fazer isso é com a mediana, que procura encontrar, em uma distribuição ordenada, o elemento central da distribuição, ou seja, o elemento que está no meio da distribuição quando ordenado. Ele sofre menos com a existência de outliers, pois eles ficam nas pontas da distribuição.

A moda é a terceira forma de análise e tem o objetivo de encontrar o elemento que mais se repete em uma distribuição. Exemplo: c(1,2,2,3,4), a moda dessa distribuição é o "2". Uma distribuição como c(1,2,3,4) não tem como calcular a moda, pois não possui elementos repetidos.

Quando o tipo de dado for ordinal o mais recomendado é usar mediana ou moda, não devemos fazer uso da média aritmética. Já quando o tipo de dado for intervalar podemos fazer o uso de média aritmética, mas se ele contar com a presença de outliers, a média pode ser afetada. A média pode ser uma opção a ser usada em uma distribuição normal, por isso, desenhe um histograma.

Curva Normal

Além do tipo de dado que está sendo analisado uma outra forma de entender que tipo de teste estatístico pode ser aplicado em uma distribuição é se a distribuição se enquadra em uma curva normal ou não.

Por exemplo. Um histograma que é um gráfico que mostra a frequência como as coisas aparecem em minha distribuição.

O estabelecimento da da curva normal, que é o que se espera encontrar em uma distribuição comum, vai mostrar que a maioria das amostras estão na média e os estremos estão estabelecidos por números menores.

Veja um exemplo de histograma com a representação da curva normal abaixo.

Resultado de imagem para curva normal padronizada

Tipo de dados para estatística

A primeira coisa que precisamos entender sobre estatística é entender como os números são agrupados em tipos de dados e o que eles representam. Existem os tipos de dados categóricos; ordinais; intervalares e racionais

Os tipos de dados categóricos servem para categorizar um conjunto de informações. Por exemplo: pessoas com a cor da pele branca, amarela ou negra; pessoas com roupa clássica, fitness ou casual. Essas categorizações que servem para organizar os dados MAS não necessariamente uma categoria é melhor ou pior que a outra. 

Já os tipos de dados ordinais são exemplos de dados de dados que são ordenados, que um número é maior que o outro, mas não necessariamente há uma forma de medir o quanto um é maior que o outro, como por exemplo a nota dada pelos alunos para a avaliação de um professor. 

Agora existem os números intervalares em que existe uma ordem entre os números e existe uma diferença entre eles e essa diferença tem significado, como por exemplo a temperatura. 

Contudo existe uma outra forma de tipagem dos dados, que é o tipo racional. O tipo racional é semelhante ao tipo intervalar, entretanto, ele possui uma forma de identificar a ausência de uma unidade de medida, que é o zero, como acontece na medida de temperatura com em kelvin.


Qual a razão de sabermos o tipo de dados? É que o teste estatístico adequado depende o tipo do dado que está sendo analisado.

terça-feira, 21 de junho de 2016

Formas de aprendizado - Machine Learning

Aprendizado de máquina não é mais coisa do futuro, mas sim do nosso mundo atual. Vivemos em uma nova era, uma era em que convivemos com soluções como o IBM Watson, Google Home entre outras. Esse tipo de solução nos faz pensar: Computadores são realmente capazes de aprender? A resposta é sim, contudo, com algumas importantes observações. Ainda não sabemos, exatamente, como fazer para que os computadores aprendam como os seres humanos. Mas isso não deve nos desmotivar, pois existem algoritmos importantes que resolvem eficientemente vários tipos de tarefas de aprendizagem.




É importante ter claro que não se trata de memorização. Qualquer computador é capaz de memorizar, mas a dificuldade está em generalizar um comportamento para uma nova situação. Como um programa de computador deve se comportar em situações padrões, ou então em situações que fogem do padrão.

Uma conversa habitual entre duas pessoas é repleta de sinais ocultos de comunicação. Sinais não verbais que fazem parte do processo de comunicação, que dão significado às palavras que estão sendo apresentadas. Veja esse exemplo: https://www.youtube.com/watch?v=EXM4Cl8XDe0, com certeza é um grande avanço no processo de comunicação, mas perceba que a comunicação ainda está longe de ser um exemplo de comunicação habitual entre dois seres humanos especialistas nos assuntos que estão sendo tratados, mas convenhamos, é bem superior se comparado com o teste de Touring representado por esse exemplo: http://www.manifestation.com/neurotoys/eliza.php3

Bem, mas como ensinar uma máquina? Isso pode ocorrer por diferentes tipos de aprendizados, entre elas:


  • Aprendizado Supervisionado: No aprendizado supervisionado os algoritmos trabalham com um conjunto de dados de treinamento para aprender sobre um determinado problema. Esse conjunto de dados contém obrigatoriamente o atributo alvo. Após “aprender” sobre o problema com os dados do conjunto de dados com o atributo alvo, seu conhecimento é aplicado em outro conjunto de dados, geralmente chamado de conjunto de teste, para que as predições sejam realizadas É um estilo de aprendizado bastante utilizado para resolver problemas de classificação ou regressão.
  • Aprendizado Não Supervisionado: Por sua vez, algoritmos de aprendizado não supervisionado usam conjuntos de dados que não apresentam atributos rotulados. Ao invés disso, os valores presentes no conjunto de dados são utilizados para que deduções sobre eles sejam feitas e uma forma de representação do conhecimento sobre o problema que está sendo investigado seja criada. É um estilo de aprendizado bastante utilizado para solucionar problemas de agrupamento com extração de regras.
  • Aprendizado Semi-supervisionado: Com características dos dois outros estilos de aprendizagem, algoritmos de aprendizado semi-supervisionado trabalham com um conjunto de dados que apresentam atributos parte rotulado e parte não rotulado. Apesar de existir um problema de predição, o algoritmo deve aprender com os dados de entrada para prever corretamente a saída. Assim como os algoritmos de aprendizado supervisionado, é um estilo de aprendizado bastante utilizado para solucionar problemas de classificação e regressão.
  • Aprendizado Por Reforço: Por fim, algoritmos de aprendizado por reforço trabalham com um conjunto de dados que são fornecidos como estímulos e os algoritmos devem responder e reagir a eles. O resultado de seu processamento é apresentado como um conjunto de punições ou recompensas. É um estilo de aprendizado bastante utilizado para solucionar problemas de robótica.

segunda-feira, 20 de junho de 2016

Liderança de nível 5

Os líderes de nível 5 são aqueles líderes que apresentam uma forte vontade profissional. Eles são dotados de muita determinação, foco em resultado e tudo isso com uma dose importante de humildade. Não são pessoas que buscam sua própria glória, que buscam marcar seus nomes na história, mas sim, buscam fazer o nome das empresas em que estão trabalhando cada vez maior. São ambiciosos, mas sua ambição não é em proveito próprio e sim em favor da empresa. Outra característica importante dos líderes de nível 5 é sua modéstia. Modéstia tamanha que pode até ser comparada com retração.

Diferente dos líderes de nível 4 (egocêntricos), os líderes de nível 5 preparam seus sucessores para o sucesso. Eles têm forte vontade de formar sucessores, enquanto os de nível 4 preparam seus sucessores para o fracasso.

Uma coisa o líder nível 5 não é, ou seja, um líder servil. O líder nível 5 é fortemente movido por geração de resultados contínuos, estão determinados por fazer o que necessita ser feito para que suas empresas sejam excelentes, NÃO importa o quão importante ou difíceis sejam as decisões que precisam ser tomadas.

Um líder de nível 5 olha sempre para si mesmo quando necessita atribuir o fracasso de uma empreitada, já quando ocorre o sucesso ele reconhece o trabalho de todos os envolvidos no processo que foi desenvolvido.

Como "fazer sucesso"?

Não vou tratar sobre definições de sucesso, mas sim de uma possibilidade de definição de como fazer sucesso. O sucesso é algo relativo para muitas pessoas, por isso não quero me ater a sua definição. Há pessoas que são muito bem sucedidas no trabalho, nos negócios e que possuem casas maravilhosas, mas não lares. Suas famílias estão destroçadas, seus filhos viciados em drogas e por aí vai.

Fazer sucesso é vencer paradigmas, é fazer as coisas de forma diferente como elas sempre são feitas. É inovar, é se reinventar. É preciso desafiar a lógica, sair do status quo, vencer o modus operandi de como as coisas são. É ser mais ousado, ser mais criativo e, só assim, sua possibilidade de ter uma taxa de sucesso será efetivamente maior do que se o não fizesse.

Mas para isso é necessário ter estômago, ter um um pouco de sangue frio, saber planejar, saber priorizar, saber exatamente onde se quer chegar e é preciso fazer diferente do que sempre tem feito (fazer menos do mesmo).