Autor:
(1) Mohammad AL-Smad, Universidade do Qatar, Qatar e (e-mail: malsmadi@qu.edu.qa).
História do uso de IA na educação
A história do uso da IA na educação remonta à década de 1960, com o desenvolvimento dos primeiros sistemas de tutoria inteligentes. Esses sistemas foram projetados para fornecer instrução personalizada aos alunos, adaptada às suas necessidades individuais e estilos de aprendizagem. No entanto, antes de nos aprofundarmos na evolução do uso da IA generativa na educação, precisamos compreender a história e a evolução dos modelos de IA generativa.
2.1. A história e evolução dos modelos generativos de IA
Os modelos de Inteligência Artificial Gerativa (IA), particularmente os Modelos de Linguagem (LLMs), testemunharam um progresso notável ao longo dos anos, transformando o cenário do processamento da linguagem natural e uma ampla gama de outras tarefas criativas (Susarla et al., 2023). Nesta secção, aprofundamos as raízes históricas e a trajetória evolutiva destes modelos, destacando os principais marcos que moldaram o seu desenvolvimento.
• Os primeiros dias da modelagem de linguagem: a história do desenvolvimento de LLMs começou nas décadas de 1950 e 1960 com o surgimento do processamento estatístico de linguagem natural (PNL). Na sua infância, os modelos linguísticos empregavam principalmente metodologias estatísticas para estimar a probabilidade de uma determinada palavra ou sequência de palavras dentro de um contexto linguístico. N-gramas e sequências de n palavras foram técnicas fundamentais nesse período (Russell & Norvig, 2010).
• De N-gramas para Word Embeddings: Uma mudança fundamental de modelos baseados em n-gramas para o uso de word embeddings começou a surgir em meados dos anos 2000 com a introdução do algoritmo ”Word2Vec” por (Mikolov et al., 2013 ) em 2013. Esta abordagem inovadora baseou-se na utilização de representações vetoriais para capturar o significado semântico das palavras. Esta descoberta lançou as bases para desenvolvimentos subsequentes na modelagem de linguagem.
• Avanços em modelos de aprendizagem profunda baseados em texto (ou seja, PNL Sequência a Sequência): A integração de incorporações de palavras na modelagem de linguagem inaugurou uma nova era. Essas representações vetoriais serviram de entrada para modelos de aprendizagem profunda, como redes neurais recorrentes (RNNs) e, posteriormente, para a arquitetura codificador-decodificador. Essa mudança teve um impacto profundo na pesquisa em PNL, incluindo resumo de textos e tradução automática, conforme demonstrado por (Sutskever et al., 2014). A capacidade de capturar o contexto semântico através de representações vetoriais melhorou significativamente a qualidade e a profundidade do conteúdo gerado.
• A Revolução da Arquitetura do Transformer: A introdução da arquitetura do Transformer por (Vaswani et al., 2017) em 2017 é considerada um ponto de viragem no avanço da PNL e da pesquisa em visão computacional e, em particular, na pesquisa de modelagem de linguagem. A arquitetura do transformador representou uma mudança de paradigma na PNL ao introduzir um mecanismo de autoatenção. Vários modelos de aprendizagem profunda foram desenvolvidos com base na arquitetura do transformador, como o BERT (Devlin et al., 2018). Esta inovação permitiu ao modelo capturar dependências de longo alcance dentro das sequências, melhorando a coerência e a contextualidade do conteúdo gerado. A arquitetura Transformer lançou as bases para o desenvolvimento subsequente de LLMs.
• O Surgimento dos LLMs: Nos últimos anos, o campo da IA testemunhou a proliferação de Grandes Modelos de Linguagem (LLMs). Esses modelos, também conhecidos pelo termo “modelos básicos”, são treinados em vastos e diversos conjuntos de dados que abrangem livros, artigos de notícias, páginas da web e postagens em mídias sociais e ajustados com bilhões de hiperparâmetros (Bommasani et al., 2021). Essa escala de dados sem precedentes, aliada aos avanços na arquitetura de modelos e nas técnicas de treinamento, marcou um ponto de inflexão significativo. Esses modelos básicos exibem uma adaptabilidade extraordinária a uma ampla gama de tarefas, incluindo tarefas para as quais não foram originalmente treinados. ChatGPT é um caso exemplar de modelo generativo de IA em ação. Este notável sistema de IA foi lançado em novembro de 2022 e é ajustado a partir do transformador generativo pré-treinado GPT-3.5, que foi originalmente treinado em um grande conjunto de dados de fontes de texto e código (Neelakantan et al., 2022). ChatGPT aproveita o poder do Reinforcement Learning from Human Feedback (RLHF), uma técnica que tem se mostrado imensamente promissora no alinhamento de Large Language Models (LLMs) com a intenção humana (Christiano et al., 2017). O desempenho surpreendentemente superior do ChatGPT ressalta o potencial para uma mudança de paradigma no treinamento de modelos generativos de IA. Essa mudança envolve a adoção de técnicas de alinhamento de instrução, como aprendizagem por reforço (Christiano et al., 2017), engenharia imediata (Brown et al., 2020) e prompts de cadeia de pensamento (CoT) (Wei et al., 2022), como um passo coletivo em direção à construção de um ecossistema de serviços inteligentes baseado em modelos generativos de IA.
O culminar desses avanços levou a modelos generativos de IA que possuem uma capacidade notável de compreender e gerar conteúdo realista e adequado, rico em mídia (incluindo texto, imagens, áudio e vídeo). Tais capacidades permitiram que esses modelos fossem utilizados e amplamente adotados em diferentes aplicações, como a educação. Apesar destes avanços, surgiram preocupações e desafios no panorama da IA generativa (Susarla et al., 2023). A facilidade com que modelos como o ChatGPT podem ser adaptados a novas tarefas levanta questões sobre a profundidade da sua compreensão. Especialistas em justiça da IA alertaram contra o potencial destes modelos para perpetuarem preconceitos sociais codificados nos seus dados de treino (Glaser, 2023), rotulando-os como “papagaios estocásticos” (Bender et al., 2021).
2.2. Evolução do uso de IA generativa na educação
O uso de IA na educação não é novo, as primeiras tentativas de uso de IA na educação remontam ao início da década de 1960, quando pesquisadores da Universidade de Illinois em Urbana-Champaign desenvolveram um sistema de tutoria inteligente (ITS) chamado PLATO (Lógica Programada para Operações de Ensino Automáticas) (Bitzer et al., 1961). PLATO foi o primeiro sistema computacional que permitiu aos alunos com interfaces gráficas interagir com materiais educacionais que foram desenvolvidos e adaptados usando IA às suas necessidades. Outro exemplo das primeiras tentativas de utilização da IA na educação é o sistema “Automatic Grader” que foi desenvolvido na década de 1960 para avaliar automaticamente as aulas de programação (Hollingsworth, 1960).
O advento dos computadores pessoais aumentou o desenvolvimento dos ITSs durante a década de 1970, um exemplo de sistema desenvolvido nesse período é o TICCIT (Time-shared, Interactive Computer-Controlled Instructional Television) (Stetten, 1971). TICCIT foi outro ITS inicial desenvolvido no início dos anos 1970 na Universidade de Pittsburgh. O TICCIT foi uma das primeiras tentativas de fornecer conteúdo multimídia individualizado em massa para usuários em residências e escolas.
Os avanços no desenvolvimento dos ITS nas décadas de 1960 e 1970 foram apoiados por teorias e princípios de aprendizagem que valorizam a tutoria individualizada e individualizada dos alunos nas salas de aula (ver, por exemplo, o trabalho pioneiro de BF Skinner sobre “movimento de instrução programado” e o trabalho de Benjamin Bloom sobre “aprendizado de domínio” (Block & Burns, 1976). Os ITS desenvolvidos durante esse período foram principalmente sistemas baseados em regras. Os avanços na IA e o advento dos microcomputadores na década de 1970 influenciaram a forma como os ITS foram treinados. e desenvolvido (Reiser, 2001a, desde a década de 1980, o uso da instrução baseada em computador e da educação baseada em IA, em particular, evoluiu para automatizar diversas atividades instrucionais (Reiser, 2001b).
A chegada da World Wide Web (WWW) na década de 1990 provocou uma grande mudança no meio de entrega de serviços educacionais inteligentes. Chen et al. (2020). Os ITS evoluíram para fornecer serviços de aprendizagem inteligentes, adaptáveis e personalizados, sustentados por modelos de aprendizagem automática. Apesar destes avanços na forma como os ITS foram desenvolvidos e entregues aos utilizadores, as suas capacidades limitaram-se à entrega de instrução e aprendizagem individualizadas. A evolução da WWW para a chamada “Web 2.0” e as capacidades adicionais de interacção colaborativa e social abriram caminho para uma nova era no desenvolvimento de ITS. Os dados coletados com base na interação dos usuários com os serviços da Web 2.0 e a capacidade de treinar agentes de software nesses dados usando diferentes algoritmos de aprendizado de máquina levaram a mais avanços na aplicação de análise de aprendizagem para adaptação e aprendizagem personalizada (Clow, 2013) .
O século 21 testemunhou vários avanços no uso da IA na educação. Esses avanços foram apoiados por avanços em: (i) capacidades e desempenho de hardware (Nickolls & Dally, 2010), (ii) mineração de big data (Wu et al., 2013) e (iii) modelos e arquiteturas de IA (ou seja, o advento de modelos de aprendizagem profunda) (LeCun et al., 2015). O advento da arquitetura de aprendizagem profunda Transformer em 2017 (Vaswani et al., 2017) é considerado um ponto de viragem na história do desenvolvimento de software inteligente em geral (ver Secção 2.1). Muitos modelos inteligentes, como transformadores generativos pré-treinados (GPT), começaram a aparecer logo depois (Radford et al., 2018). Em novembro de 2022, a OpenAI lançou o ChatGPT – que é baseado na arquitetura GPT 3.5 – e atingiu mais de 100 milhões de usuários em apenas alguns meses. Desde então, e hoje, ferramentas educacionais generativas baseadas em IA são desenvolvidas para fornecer aos alunos ensino personalizado, aprendizagem adaptativa e experiências de aprendizagem envolventes (ver Secção 4.2).
Este artigo está disponível no arxiv sob licença CC BY-NC-ND 4.0 DEED.