2  Estatística, Machine Learning e IA

Embora os termos estatística, machine learning (aprendizado de máquina) e inteligência artificial (IA) sejam frequentemente usados como sinônimos, eles abrangem campos distintos com métodos, aplicações e filosofias próprias. Compreender essas diferenças é essencial para aplicar o conhecimento de forma eficaz em cada uma dessas áreas, especialmente no contexto do desenvolvimento tecnológico e da inovação (Bzdok, Altman, and Krzywinski 2018; Giorgi, Ceraolo, and Mercatelli 2022; Jalajakshi and Myna 2022; Mailund 2017; Tahsin and Hasan 2020).

2.1 Estatística: A Fundação

A estatística pode ser considerada o alicerce sobre o qual Machine Learning (ML) e Inteligência Artificial (IA) são construídos. Tradicionalmente, a estatística lida com a coleta, análise, interpretação e apresentação de dados. No contexto do ensino e pesquisa, isso se traduz em uma ampla gama de testes, modelos e métodos de análise exploratória de dados (Bzdok, Altman, and Krzywinski 2018; Jalajakshi and Myna 2022).

A Estatística é uma ciência que se concentra na coleta, análise, interpretação e apresentação de dados. Ela utiliza teorias probabilísticas para estimar incertezas, testar hipóteses e fazer inferências a partir de amostras de dados. A estatística é fundamental na pesquisa científica e na tomada de decisões baseada em dados, oferecendo ferramentas para entender e modelar a variação e as relações nos dados(Hothorn 2023; James et al. 2023; Zbicki and Santos 2020). Seus principais enfoques são:

  • Inferência Estatística: A estatística foca em inferir propriedades de uma população a partir de amostras. Este processo envolve a estimativa de parâmetros, testes de hipóteses e a criação de intervalos de confiança. É fundamental na avaliação e validação de modelos de ML e IA.

  • Análise Exploratória de Dados (EDA): Antes de aplicar técnicas avançadas de ML e IA, os estatísticos realizam a EDA para entender melhor as características dos dados. Isso inclui identificar tendências, padrões, outliers e a estrutura básica dos dados.

  • Modelagem Estatística: Diferente de algumas técnicas de ML e IA, a modelagem estatística muitas vezes procura não apenas prever, mas também explicar as relações entre variáveis. Modelos como regressões lineares e logísticas são clássicos exemplos.

  • Tratamento da Incerteza: A estatística fornece ferramentas para lidar com a incerteza e a variabilidade nos dados. Isso é essencial para a tomada de decisões baseadas em dados, especialmente em contextos onde os dados são limitados ou ruidosos.

2.2 Machine Learning: Construindo sobre Estatística

ML é um subcampo da IA, é primariamente focado em desenvolver algoritmos que podem ‘aprender’ a partir de dados e fazer previsões ou tomar decisões baseadas nesses dados. Diferentemente da estatística tradicional, que frequentemente depende de modelos especificados previamente, o machine learning se concentra mais em algoritmos que se ajustam e melhoram automaticamente através da exposição a mais dados. Enquanto a estatística pode se concentrar mais na interpretação e na inferência, o machine learning prioriza a precisão preditiva e a capacidade de generalizar para novos dados (Zbicki and Santos 2020; James et al. 2023).

Dentro do ML os algoritmos são comumente categorizados em dois tipos principais: aprendizado supervisionado e não supervisionado. O aprendizado supervisionado envolve o uso de conjuntos de dados rotulados, onde cada exemplo de treinamento tem um rótulo ou resposta correspondente. Este tipo é utilizado para tarefas como classificação e regressão, onde o modelo aprende a mapear entradas para saídas conhecidas. Já o aprendizado não supervisionado é aplicado a dados sem rótulos pré-definidos, focando na descoberta de padrões e estruturas intrínsecas aos dados. Este método é ideal para tarefas como agrupamento, redução de dimensionalidade e identificação de regras de associação. Ambos os tipos têm aplicações variadas e são escolhidos com base nas características e objetivos específicos do problema de ML em questão (Zbicki and Santos 2020; James et al. 2023).

2.2.1 Aprendizado Supervisionado

No aprendizado supervisionado, os modelos são treinados usando um conjunto de dados rotulado. Isso significa que cada exemplo no conjunto de dados é pareado com a resposta ou resultado correto. O objetivo é que o modelo aprenda a mapear os dados de entrada para as respostas (Zbicki and Santos 2020; James et al. 2023).

2.2.1.1 Regressão

No contexto do aprendizado supervisionado, a regressão lida com a previsão de valores quantitativos (discretos ou continuous). O objetivo é desenvolver um modelo que possa prever um valor numérico, como preço, temperatura ou vendas, a partir de um conjunto de variáveis de entrada (Zbicki and Santos 2020; James et al. 2023; Burger 2018).

Definindo o Problema de Regressão

Um problema de regressão é caracterizado da seguinte forma (Zbicki and Santos 2020; Burger 2018):

  • Dados de Entrada e Saída: Em um problema de regressão, os dados de entrada podem ser uma ou mais variáveis preditoras (features), e a saída é uma variável contínua. Por exemplo, prever o preço de uma casa com base em seu tamanho, localização e idade.

  • Modelos Comuns: Alguns dos modelos de regressão mais comuns incluem regressão linear simples e múltipla, regressão polinomial e regressão com regularização (como Lasso e Ridge).

Avaliando Modelos de Regressão

A avaliação de modelos de regressão foca em quão bem o modelo prevê valores contínuos. As métricas comuns incluem (Zbicki and Santos 2020; James et al. 2023; Burger 2018):

  • Erro Quadrático Médio (MSE): Mede a média dos quadrados dos erros, ou seja, a média das diferenças quadradas entre os valores observados e os valores previstos pelo modelo.

  • Raiz do Erro Quadrático Médio (RMSE): É a raiz quadrada do MSE, fornecendo uma medida de erro em uma escala comparável aos valores originais.

  • Erro Absoluto Médio (MAE): Mede a média das diferenças absolutas entre previsões e valores reais, fornecendo uma ideia da magnitude do erro sem considerar sua direção.

  • Coeficiente de Determinação (\(R^2\)): Mede a proporção da variância total dos dados que é explicada pelo modelo. Um valor de \(R^2\) próximo de 1 indica que o modelo explica uma grande parte da variação nos dados.

Desafios Comuns na Regressão (Zbicki and Santos 2020; James et al. 2023; Burger 2018):

  • Overfitting e Underfitting: Overfitting ocorre quando um modelo é excessivamente complexo, adaptando-se demais aos dados, incluindo o ruído (erro), e falhando ao generalizar para novos dados. Underfitting, por outro lado, acontece quando o modelo é muito simples para capturar a complexidade dos dados, resultando em um desempenho fraco tanto nos dados.

  • Linearidade: Muitos modelos de regressão assumem que existe uma relação linear entre as variáveis de entrada e a saída. Quando esta suposição não é válida, o modelo pode não performar bem, pois não consegue capturar as relações não lineares nos dados.

  • Multicolinearidade: Este problema surge quando há uma alta correlação entre duas ou mais variáveis de entrada do modelo. Isso pode levar a dificuldades na estimação dos efeitos individuais das variáveis de entrado sobre a variável de saída, além de potencialmente causar instabilidade nos coeficientes estimados do modelo.

2.2.1.2 Classificação

A classificação é um tipo de problema de aprendizado supervisionado focado na previsão de variáveis categóricas, como rótulos ou classes, diferentemente da regressão, que prevê valores quantitativos. A classificação trabalha com categorias ou valores qualitativos (Zbicki and Santos 2020; James et al. 2023; Burger 2018).

Definindo o Problema de Classificação

Um problema de classificaçao é caracterizado da seguinte forma (Zbicki and Santos 2020; James et al. 2023; Burger 2018):

  • Dados de Entrada e Saída: Em um problema de classificação, os dados de entrada podem ser uma ou mais variáveis preditoras denominadas atributos, e a saída é um variável qualititiva ou categoria. Por exemplo, identificar se um individuo tem Dengue, baseado em informações de Idade, Temperatura, Febre, Enjôo, Manchas e Dor.

  • Modelos Comuns: Incluem regressão logística, máquinas de vetores de suporte (SVM), árvores de decisão, florestas aleatórias e redes neurais.

Avaliando Modelos de Classificação

A avaliação em classificação foca em quão precisamente o modelo pode classificar as entradas. Algumas métricas comuns incluem (Zbicki and Santos 2020; James et al. 2023; Burger 2018):

  • Acurácia: A proporção de previsões corretas em relação ao total de casos. Apesar de ser intuitiva, não é sempre a melhor métrica, especialmente se os dados são desbalanceados.

  • Precisão e Recall: Precisão é a proporção de previsões positivas corretas, enquanto recall (ou sensibilidade) é a proporção de casos positivos reais que foram identificados corretamente.

  • F1-Score: Uma média harmônica entre precisão e recall. Útil quando se busca um equilíbrio entre precisão e recall.

  • Curva ROC e AUC: A curva ROC (Receiver Operating Characteristic) é um gráfico da taxa de verdadeiros positivos contra a taxa de falsos positivos. A AUC (Area Under the Curve) é uma medida do desempenho do modelo que considera todas as taxas de classificação possíveis.

Desafios Comuns na Classificação (Zbicki and Santos 2020; James et al. 2023; Burger 2018):

  • Desequilíbrio de Classes: Quando uma classe é muito mais frequente do que outras, o modelo pode se inclinar para a classe mais comum, reduzindo a precisão geral.

  • Overfitting e Underfitting: Similar à regressão, a classificação também pode sofrer de overfitting e underfitting, afetando a capacidade do modelo de generalizar para novos dados.

  • Interpretabilidade: Para alguns modelos, como redes neurais profundas, pode ser difícil interpretar como a decisão de classificação foi feita.

2.2.2 Aprendizado Não Supervisionado

No aprendizado não supervisionado, os modelos são treinados usando dados que não possuem rótulos ou categorias pré-definidas. O foco é na descoberta de padrões, estruturas ou insights intrínsecos nos dados sem a orientação de um resultado específico (Zbicki and Santos 2020; James et al. 2023; Burger 2018).

2.2.2.1 Agrupamento (Clustering)

Uma das tarefas mais comuns no aprendizado não supervisionado é o agrupamento, onde o objetivo é dividir o conjunto de dados em grupos (clusters) baseados em semelhanças (Zbicki and Santos 2020; James et al. 2023; Burger 2018).

Definindo o Problema de Agrupamento

  • Dados de Entrada: Diferente do aprendizado supervisionado, os dados de entrada não são acompanhados por rótulos ou respostas corretas. Por exemplo, segmentar clientes com base em comportamento de compra sem uma categorização prévia.

  • Métodos Comuns: K-means, agrupamento hierárquico e DBSCAN são alguns dos algoritmos populares usados para agrupamento.

Avaliando Modelos de Agrupamento

Avaliar o desempenho em agrupamento é desafiador devido à falta de rótulos verdadeiros. Algumas abordagens incluem (Zbicki and Santos 2020; James et al. 2023; Burger 2018):

  • Índice de Silhueta: Mede quão bem um ponto foi agrupado, calculando a diferença entre a coesão dentro do cluster e a separação entre clusters.

  • Dunn Index: Enfatiza a distância entre os clusters e a dispersão dentro de cada cluster.

  • Validação Cruzada Baseada em Estabilidade: Compara a estabilidade dos clusters criados a partir de diferentes subconjuntos dos dados.

2.2.2.2 Redução de Dimensionalidade

Outra tarefa importante no aprendizado não supervisionado é a redução de dimensionalidade, que busca simplificar os dados preservando o máximo de informações relevantes (Zbicki and Santos 2020; James et al. 2023; Burger 2018).

Definindo a Redução de Dimensionalidade

  • Objetivo: Reduzir o número de variáveis (features) nos dados, facilitando a visualização, interpretação e, em alguns casos, o processamento subsequente dos dados.

  • Métodos Comuns: Análise de Componentes Principais (PCA), t-SNE e UMAP são técnicas amplamente utilizadas.

Avaliando a Redução de Dimensionalidade

  • Variação Preservada: Em métodos como o PCA, uma métrica importante é a quantidade de variação dos dados originais que é preservada após a redução.

  • Qualidade da Representação: Em técnicas como t-SNE e UMAP, avalia-se a qualidade visualizando se os dados reduzidos mantêm as relações estruturais dos dados originais.

2.2.2.3 Desafios Comuns no Aprendizado Não Supervisionado

  • Interpretação dos Resultados: Os resultados do aprendizado não supervisionado podem ser subjetivos e sua interpretação muitas vezes requer conhecimento de domínio.

  • Seleção de Parâmetros: A escolha de parâmetros, como o número de clusters no K-means, pode ter um grande impacto nos resultados e requer experimentação.

  • Qualidade dos Dados: O aprendizado não supervisionado pode ser sensível à qualidade dos dados, incluindo ruídos e outliers.

2.3 Inteligência Artificial: Uma Visão Ampla

Definição e Escopo

A Inteligência Artificial (IA) é um campo abrangente que inclui o Machine Learning (ML) e outras técnicas que podem ou não ser baseadas em dados. A IA envolve o desenvolvimento de sistemas capazes de realizar tarefas que normalmente exigem inteligência humana, como percepção, raciocínio, aprendizado e tomada de decisões. Além do ML, a IA engloba áreas como processamento de linguagem natural, robótica e visão computacional (Thaichon and Quach 2022).

Tipos de IA

  • IA Fraca (ou Estreita): Focada em tarefas específicas, como reconhecimento de voz ou processamento de linguagem natural, representando a maioria das aplicações atuais de IA.

  • Forte (ou Geral): Visa criar um sistema com capacidade intelectual geral comparável à humana, capaz de resolver uma ampla variedade de problemas. Este tipo de IA ainda é um objetivo de longo prazo na pesquisa.

Aplicações de IA (Thaichon and Quach 2022).

  • Reconhecimento de Voz e Processamento de Linguagem Natural (PLN): Usado em assistentes virtuais, tradução automática e análise de sentimentos.

  • Visão Computacional: Aplicações em reconhecimento facial, diagnósticos médicos por imagem e sistemas de vigilância.

  • Robótica: Desde robôs industriais até drones autônomos e veículos autônomos.

  • Sistemas de Recomendação: Como os usados por plataformas de streaming e e-commerce para sugerir produtos ou conteúdos.

Desafios e Considerações Éticas (Thaichon and Quach 2022).

  • Transparência e Explicabilidade: Entender como as decisões são feitas por sistemas de IA é crucial, especialmente em áreas sensíveis como saúde e justiça criminal.

  • Viés e Justiça: A IA pode perpetuar ou até amplificar vieses presentes nos dados ou nos processos de desenvolvimento.

  • Privacidade de Dados: A coleta e utilização de dados em grande escala pela IA levanta preocupações significativas de privacidade.

  • Automação e Impacto no Emprego: A automação por IA tem o potencial de transformar o mercado de trabalho, criando novas oportunidades e desafios.