TII apresenta a série de modelos de IA Falcon 2, à frente do Llama 3 8B

(tii.ae)

2 pontos por GN⁺ 2024-05-14 | 1 comentários | Compartilhar no WhatsApp

O TII, de Abu Dhabi, apresentou a série Falcon 2, colocando modelos multilíngues e multimodais em destaque na disputa de LLMs open source
O Falcon 2 11B é um modelo de 11 bilhões de parâmetros treinado com 5,5 trilhões de tokens e superou o Meta Llama 3 8B no ranking do Hugging Face
O Falcon 2 11B VLM é o primeiro modelo multimodal do TII, que transforma entrada visual em texto, e pode aplicar interpretação de imagens em vários setores
Os dois modelos são disponibilizados como open source, seguem a TII Falcon License 2.0 e foram projetados para facilitar a implantação e integração por desenvolvedores mesmo em infraestrutura mais leve
O TII pretende expandir o Falcon 2 para vários tamanhos e avalia Mixture of Experts para melhorar desempenho e qualidade das respostas

Lançamento do Falcon 2 e composição dos modelos

O Technology Innovation Institute é uma organização de pesquisa aplicada vinculada ao Advanced Technology Research Council de Abu Dhabi e lançou, em 13 de maio de 2024, o grande modelo de linguagem Falcon 2
Esta série é composta por dois modelos
- Falcon 2 11B: LLM de 11 bilhões de parâmetros treinado com 5,5 trilhões de tokens
- Falcon 2 11B VLM: modelo vision-to-language que converte entradas visuais em saída de texto
Ambos os modelos oferecem suporte multilíngue, e o Falcon 2 11B VLM é o primeiro modelo multimodal do TII
O TII apresenta o Falcon 2 11B VLM como o único modelo no topo do mercado atual com capacidade de conversão de imagem para texto

Comparação de desempenho e áreas de uso

O Falcon 2 11B foi comparado com modelos pré-treinados no ranking de avaliação de LLMs abertos do Hugging Face
- Registrou desempenho superior ao Llama 3 8B, da Meta
- Ficou entre os primeiros colocados, com pontuação quase igual à do Gemma 7B, do Google
- As pontuações ficam na faixa de 64,28 para o Falcon 2 11B e 64,29 para o Gemma 7B
O modelo Falcon 2 11B processa tarefas em inglês, francês, espanhol, alemão, português e vários outros idiomas
O Falcon 2 11B VLM consegue identificar e interpretar imagens e materiais visuais do ambiente ao redor
- São citados como áreas de aplicação os setores de saúde, finanças, e-commerce, educação e jurídico
- Também inclui casos de uso como gestão de documentos, arquivamento digital, indexação contextual e apoio a pessoas com deficiência visual

Forma de disponibilização e próximos planos

O Falcon 2 11B e o Falcon 2 11B VLM são ambos disponibilizados como open source, permitindo o acesso por desenvolvedores
Os dois modelos são apresentados como capazes de rodar de forma eficiente até mesmo em uma única GPU, facilitando a implantação e integração em infraestruturas mais leves, como notebooks e outros dispositivos
O Falcon 2 11B é oferecido sob a TII Falcon License 2.0, uma licença de software permissiva baseada na Apache 2.0
- Inclui uma política de uso permitido que incentiva o uso responsável de IA
O TII pretende, no futuro, diversificar os tamanhos dos modelos de próxima geração do Falcon 2 e avalia a adoção de Mixture of Experts
- Mixture of Experts é uma abordagem que combina pequenas redes com diferentes especializações para produzir respostas mais sofisticadas e personalizadas
- O TII acredita que essa abordagem pode aumentar a precisão e acelerar a tomada de decisões
Informações sobre os novos modelos podem ser consultadas em FalconLLM.TII.ae

1 comentários

GN⁺ 2024-05-14

Comentários do Hacker News

Os resultados de benchmark parecem ficar mais ou menos no mesmo nível de Mistral 7B e Llama 3 8B, mas considerando que o modelo ficou maior, isso não parece nada muito impressionante
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- Exato. O Falcon-180b também foi muito superestimado no começo, mas a comunidade logo percebeu que ele era quase inútil, e modelos de linguagem grandes menores venciam com facilidade na maioria dos casos
  Desta vez, afirmam que o falcon-11b é melhor que o Llama 3 8b, mas já dá para ver vários problemas. O falcon-11b é cerca de 40% maior que o Llama 3 8b, então é difícil compará-los como se fossem da mesma categoria de tamanho, e a afirmação se apoia em benchmarks automáticos, embora já esteja claro há muito tempo que benchmarks automáticos por si só não bastam para chegar a esse tipo de conclusão
  Em alguns benchmarks automáticos, a pontuação é muito inferior à do Llama 3 8b, e ele só fica ligeiramente à frente em exatamente um benchmark. Dá para fazer um benchmark parecer o melhor de todos os tempos, mas isso não significa de forma alguma que seja um bom modelo
  Mesmo sem qualquer avaliação humana, usaram de propósito um título caça-cliques com uma afirmação precipitada, e ao dizer que é melhor que o Llama 3 ignoram completamente o Llama 3 70b
  Sinceramente, me irrita que a tiiuae continue recebendo atenção demais enquanto segue fazendo esse tipo de isca enganosa sem conseguir entregar nada realmente útil
- Parece ser assim com os modelos deles em geral. O tamanho é realmente grande, mas não há ganho de desempenho real proporcional ao esforço investido
  O conjunto de dados web refinado parece ser fortemente censurado, e isso também pode influenciar. É moralmente muito conservador e exclui completamente pornografia e vários outros temas
  Então não seria surpreendente se parte do problema viesse de filtrar conteúdo demais e colocar ainda mais do mesmo tipo de coisa
- Talvez a métrica de comparação não seja a adequada
  É verdade que o modelo é maior, mas para o treinamento ele precisou de menos tokens que o Llama 3. O problema é que, sem um dataset público, fica difícil comparar corretamente e reproduzir os resultados
  É difícil saber se isso se deve à arquitetura do modelo, à qualidade do dataset, ao tamanho do modelo, à combinação desses fatores, ou a outra razão
A licença não é boa: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
É uma licença Apache 2 modificada com cláusulas adicionais, incluindo a exigência de seguir a política de uso aceitável: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
Só que essa licença Apache 2 modificada diz que “a política de uso aceitável pode ser atualizada de tempos em tempos, e você deve monitorar o endereço web onde a política está hospedada para verificar se o uso da obra ou de obras derivadas está em conformidade com a política atualizada”
Independentemente de como se veja a política de uso aceitável atual, eles preservam o direito de mudá-la como quiserem no futuro, e os usuários têm de seguir a nova política
Isso mostra muito bem por que não gosto da tendência de chamar isso de open source mesmo sendo incompatível com a definição da OSI
- Basicamente, não dá para usar isso em nada minimamente sério. Eles podem proibir um caso de uso a qualquer momento, sem aviso prévio
- Eu realmente queria saber se a cláusula “preservam o direito de mudá-la como quiserem no futuro, e os usuários têm de seguir a nova política” de fato se sustentaria em tribunal. Gostaria de saber se há jurisprudência ou precedentes sobre isso
- Esse tipo de manobra de licença não é novidade. Já houve isso no Falcon 1. Dou crédito pelo esforço, mas ainda parece que eles seguem tentando descobrir se vão monetizar e como vão fazer isso
- O modelo 40b parece ser Apache puro
Há a frase “o novo Falcon 2 11B supera o Llama 3 8B da Meta e entrega desempenho comparável ao modelo líder Gemma 7B do Google”, mas eu tinha a forte impressão de que o Llama 3 8B supera o Gemma 7B em quase todas as métricas
- É preciso notar que essa comparação é entre modelos base, não modelos ajustados para chat, porque o Falcon-11B ainda não tem um modelo ajustado para chat. O ajuste para chat da Meta parece ser melhor que o da Gemma
  Ainda assim, pelo que usei, o modelo de chat Gemma 1.1 era bem razoável, e acho que o modelo de chat Llama3 8B é claramente melhor
  O CodeGemma 1.1 7B é especialmente subestimado quando comparado com os modelos de código relacionados. O modelo base CodeGemma 7B foi um dos melhores que testei em conclusão de código, e o modelo de chat também foi um dos melhores que testei em escrita de código
  Outros modelos parecem atacar melhor os benchmarks, mas no uso real não se sustentaram tão bem quanto o CodeGemma. Estou curioso para ver como será o CodeLlama3, mas ele ainda não existe
- Embora seja algo anedótico, na minha experiência o Gemma é completamente inútil e o Llama 3 8b é excepcionalmente bom para o seu tamanho. A ideia de que o Gemma esteja à frente do Llama 3 parece estranha. Se o Gemma estiver na frente em algum benchmark, imagino que possa haver algo como contaminação
- Isso também me pareceu estranho
  Hoje em dia nem acompanho tantos benchmarks, porque estou totalmente focado em basquete
  Só para constar, na verdade eu sou um pouco melhor que o Lebron. O Lebron é muito pior até que a minha filha de três anos, e eu às vezes ganho dela. No basquete
Suspiro, achei que isso fosse sobre o Falcon AT da Spectrum Holobyte. Segundo o MyAbandonware.com:
“Essencialmente Falcon 2, mas de alguma forma comercializado de modo diferente, Falcon AT é o segundo lançamento da inovadora série Falcon de simuladores de voo hardcore da Spectrum Holobyte. Ao contrário da ideia comum de que Falcon 3.0 marcou o início dos simuladores de voo modernos, Falcon AT já era um grande avanço em relação a Falcon, com gráficos EGA nítidos, muitas opções realistas e uma campanha bastante expandida. O jogo é um simulador moderno de combate aéreo com os excelentes tutoriais, a variedade de missões e a dinâmica de voo precisa que os fãs de Falcon passaram a conhecer e amar. Entre suas várias inovações, há também uma opção de multiplayer surpreendentemente jogável via hotseat e modem. Hoje em dia ele é em grande parte esquecido, mas Falcon AT ajuda a explicar a lacuna difícil de descrever entre Falcon e Falcon 3.0”
- Parece haver uma tendência de tirar nomes de novos produtos de jogos clássicos de computador. Talvez não tenha sido intencional. Agora há pouco também apareceu aqui uma postagem sobre um sistema chamado Loom, e não era sobre o clássico jogo de aventura. Parece que em algum momento alguém vai lançar um modelo de linguagem grande ou um software de rede e dar o nome de Zork
- O fato de “F-16 Strike Eagle II reverse engineering” <https://news.ycombinator.com/item?id=40347662> também estar na página principal agora contribui para essa associação mental
Não entendo o que querem dizer com “o único modelo de IA com capacidade visão-linguagem”. Isso não é basicamente o que GPT-4 Vision e LLaVA fazem?
- No começo achei que fosse algum trocadilho distorcendo o sentido
  Talvez algo como dizer que o LLaVA é um modelo linguagem-visão, mas nem assim consegui encontrar uma interpretação que fizesse sentido
  Talvez estejam simplesmente mentindo
- Os modelos Claude também se encaixam todos nisso
Modelos abertos são bem-vindos, mas, como já apontaram aqui, os modelos Falcon não são tão abertos assim. O Falcon original também não funcionava tão bem quanto os números de benchmark sugeriam. Foi vendido como um grande avanço, mas no lançamento não me pareceu superar os modelos abertos concorrentes da época
A frase promocional de que o modelo 11B supera modelos 7B e 8B “da mesma classe” parece um pouco forçada. Vou acompanhar, e certamente pretendo testar para inferência local. Mas meu palpite é que um llama 3 8B com fine-tuning provavelmente ainda é o melhor da categoria nesta semana
- Eu também vi o Falcon original não render o que os números de benchmark prometiam. Parecia subtreinado na relação tokens por parâmetro. Acho que eles só queriam ter um modelo de 40 bilhões de parâmetros, num estilo mais próximo do período pré-otimização Chinchilla
É realmente arrepiante esse lembrete de que a IA será usada não só em democracias que ao menos tentam alguma supervisão ética, mas também pelos piores ditadores
- MBZ não é MBS, e Arábia Saudita e EAU são países diferentes. MBZ é um dos líderes mais populares do mundo, e sua população está entre as mais ricas
  O país dele é um dos poucos países desenvolvidos cuja economia ainda cresce de forma consistente e, mesmo tendo uma das políticas de imigração mais livres do mundo, ainda é um dos países mais seguros do mundo fora do Leste Asiático
  Em vez de estar entre os piores ditadores, ele estaria muito mais perto de ser candidato a melhor ditador
Há algo que eu quero entender. Este modelo não foi treinado majoritariamente com datasets públicos, usou hardware da AWS e aplicou algoritmos e técnicas bem conhecidos? Como ele difere de outros modelos que qualquer um pode treinar se tiver dinheiro?
Pelo meu olhar cético, quase anti, isso parece apenas ostentação e uma tentativa de parecer relevante. Há algo mais nisso que eu não esteja vendo?
- Muitos modelos entram nessa categoria. Soberania tem algum valor, seja para um país ou para uma empresa. A ameaça de concorrência também é algo bom para todos
  Mesmo que o resultado final em geral não seja especialmente interessante, ainda assim é bom ver gente fazendo esse tipo de trabalho
Por um momento achei que isso tinha a ver com o simulador de voo clássico:
https://en.wikipedia.org/wiki/Falcon_4.0
- A SpaceX também tem os foguetes Falcon 1 e Falcon 9, e houve ainda o Falcon 5, que foi proposto mas nunca desenvolvido
O viés do artigo é tão absurdo que dá vontade de dizer para os EAU serem um pouco mais discretos. “vence o llama 3” é um resumo suspeitamente pouco útil, e a parte de “o único modelo de IA com capacidade visão-linguagem” é simplesmente desconcertante

TII apresenta a série de modelos de IA Falcon 2, à frente do Llama 3 8B

Lançamento do Falcon 2 e composição dos modelos

Comparação de desempenho e áreas de uso

Forma de disponibilização e próximos planos

Leituras relacionadas

1 comentários

Comentários do Hacker News