2 pontos por GN⁺ 2024-05-14 | 1 comentários | Compartilhar no WhatsApp

Lançamento do modelo de próxima geração da série Falcon 2

  • O Technology Innovation Institute (TII) lançou a série Falcon 2, de modelos de linguagem de grande porte (LLM) de próxima geração
    • Falcon 2 11B: modelo com 11 bilhões de parâmetros treinado com 5,5 trilhões de tokens, com maior eficiência e acessibilidade
    • Falcon 2 11B VLM: primeiro modelo multimodal com capacidade vision-to-language, que converte entrada visual em saída de texto
  • Ambos os modelos oferecem suporte multilíngue e, em especial, o Falcon 2 11B VLM é atualmente o único entre os modelos de ponta a oferecer a função de conversão de imagem para texto

Desempenho do Falcon 2 11B

  • Segundo a avaliação da Hugging Face, o Falcon 2 11B apresentou desempenho superior ao Llama 3 8B, da Meta, e desempenho semelhante ao Gemma 7B, do Google (Falcon 2 11B: 64.28 vs Gemma 7B: 64.29)
  • Tanto o Falcon 2 11B quanto o 11B VLM serão disponibilizados como open source para desenvolvedores, sem restrições
  • No futuro, a série Falcon 2 deverá ser expandida com modelos de vários tamanhos, com planos de adotar a tecnologia Mixture of Experts (MoE) para elevar ainda mais o desempenho

Características do Falcon 2 11B VLM

  • Capaz de processar vários idiomas, incluindo inglês, francês, espanhol, alemão e português
  • Equipado com função vision-to-language para reconhecer e interpretar imagens e informações visuais do ambiente
    • Pode ser aplicado em diversos setores, como saúde, finanças, comércio eletrônico, educação e jurídico
    • Ampla gama de usos, de gestão de documentos, arquivamento digital e indexação por contexto até suporte para pessoas com deficiência visual
  • Pode ser executado com eficiência em uma única GPU, oferecendo alta escalabilidade e fácil integração com infraestruturas leves, como notebooks

Opinião do GN⁺

  • A série Falcon 2 é a próxima geração que eleva ainda mais o desempenho e a eficiência dos modelos Falcon existentes. Em especial, o Falcon 2 11B VLM tem grande relevância por ser o primeiro grande modelo multimodal multilíngue com capacidade vision-to-language. Espera-se que isso possibilite o processamento integrado de dados visuais e linguísticos, permitindo interações mais naturais e próximas das humanas.

  • Ainda assim, a IA multimodal continua em estágio inicial, e há espaço para melhorias em estabilidade e robustez. Por isso, para uso no mundo real, será necessário examinar e aperfeiçoar cuidadosamente questões como viés dos dados, privacidade e segurança, além de vulnerabilidades a entradas incorretas.

  • Também merece destaque o fato de a série Falcon 2 ser disponibilizada como open source. Isso tende a incentivar a participação ativa da comunidade de desenvolvedores e acelerar a melhoria e expansão dos modelos. No entanto, no caso de modelos open source, também existem preocupações com possíveis usos maliciosos, de modo que parece desejável incluir nas políticas de licença itens como uma acceptable use policy para incentivar o uso responsável da IA.

  • O plano de adotar a tecnologia Mixture of Experts (MoE) também é um ponto interessante. O MoE combina várias redes menores especializadas para gerar resultados mais sofisticados e personalizados por meio da colaboração entre domínios especializados, e deve contribuir significativamente para melhorar o desempenho da série Falcon 2 no futuro. Essa direção de pesquisa pode ser vista como parte de um esforço para ir além de simplesmente aumentar a escala do modelo e construir sistemas de IA mais eficientes e inteligentes.

1 comentários

 
GN⁺ 2024-05-14
Opiniões no Hacker News
  • Foi apontado que os resultados de benchmark do modelo Falcon 2 11B ficam em nível semelhante ao Mistral 7B e ao Llama 3 8B. Considerando o aumento no tamanho do modelo, isso não parece tão impressionante.

  • Há problemas com a licença. Ela modificou a licença Apache 2 para incluir cláusulas adicionais, entre elas a exigência de cumprir uma política de uso aceitável. O problema é que não se sabe como essa política poderá mudar no futuro. Independentemente do conteúdo atual, ela pode ser alterada depois para qualquer coisa, e ainda assim seria obrigatório segui-la. Foi apontado que a tendência de chamar esse tipo de licença de "open source" não está de acordo com a definição da OSI.

  • Sobre a afirmação de que "o Falcon 2 11B supera o Llama 3 8B da Meta e apresenta desempenho equivalente ao Gemma 7B do Google", houve a contestação de que a impressão forte era a de que o Llama 3 8B supera o Gemma 7B em quase todos os aspectos.

  • Sobre a expressão "o único modelo de IA com capacidade Vision-to-Language", levantou-se a dúvida se isso não seria, na prática, muito parecido com o que GPT-4 Vision ou LLaVA já fazem.

  • Foi novamente apontado que os modelos Falcon não são tão abertos assim. O Falcon original não teve um desempenho tão bom quanto os benchmarks sugeriam. Embora tenha sido anunciado como um grande salto, não passou a sensação de superar os modelos concorrentes.

  • A divulgação de que o modelo 11B tem desempenho superior aos modelos 7B e 8B da "mesma categoria" parece um pouco exagerada. A intenção é testá-lo para inferência local, mas a avaliação intuitiva, por enquanto, é que o Llama 3 8B com fine-tuning ainda seja o melhor no momento.

  • Se ele foi treinado majoritariamente com datasets públicos e usa hardware da AWS junto com algoritmos e técnicas bem conhecidos, fica a dúvida sobre o que o diferencia de outros modelos que qualquer um poderia treinar tendo dinheiro suficiente. Também foi levantada uma visão cética/crítica de que isso parece mais uma tentativa de se manter relevante e de "ostentar".

  • Diz-se que o Falcon 2 11B é superior ao Llama 3 8B, mas ele tem mais parâmetros, então a comparação não é justa. O melhor modelo open source parece ser o Llama 3 70B, e isso levanta a dúvida sobre por que se afirma ter superado o Llama 3 sem superar o melhor modelo da linha.