8 pontos por GN⁺ 2024-07-05 | 1 comentários | Compartilhar no WhatsApp
  • Busca entender o mercado de trabalho atual e as tendências por meio das threads "Ask HN: Who Is Hiring" do Hacker News
  • Usou Selenium para pesquisar no Google todo mês por "ask hn who is hiring {month} {year}" e coletar os IDs das threads
  • Usou a HN-API para coletar os IDs dos comentários de nível superior e armazená-los em um banco de dados sqlite3
  • Usou GPT-4o para classificar os comentários
  • Usou o método llm.batch(array) do LangChain para processar em paralelo e tratar os dados rapidamente

Resultados

Quantas vagas permitem trabalho remoto?
  • Durante a pandemia, apenas um quinto das vagas não oferecia suporte a trabalho remoto
  • A proporção de vagas que oferecem trabalho remoto não caiu tanto quanto o esperado
Quantas vagas patrocinam visto?
  • A proporção de vagas com patrocínio de visto permaneceu relativamente estável nos últimos 2 anos
  • Ainda é difícil encontrar vagas com patrocínio de visto
Como muda a distribuição por nível de experiência?
  • Nos próximos 6 a 12 meses, será importante acumular mais de 8 anos de experiência
Quantidade de vagas por estado nos EUA
  • A Bay Area e NYC oferecem muito mais vagas do que outras regiões
Quais bancos de dados são usados?
  • PostgreSQL é usado de forma esmagadora em comparação com outros bancos de dados
Quais frameworks JavaScript estão em alta demanda?
  • A demanda por React é muito alta
  • Foi criado um gráfico de bolhas interativo com three.js, sem usar escala logarítmica
Como é a distribuição salarial?
  • Não foram fornecidos detalhes específicos sobre a distribuição salarial

Lições aprendidas

  • É preciso descrever os campos do modelo da forma mais precisa possível
  • Ao classificar, é preciso explicitar as classes na descrição
  • Ao extrair conjuntos, é preciso especificar os delimitadores na descrição

Trabalho futuro

  • Com base neste trabalho inicial, parece possível criar um mini SaaS que classifique e faça correspondências mensais a partir da descrição da vaga que o usuário procura nas threads "Ask HN: Who is hiring?"

Opinião do GN⁺

  • Este texto mostra bem como analisar o mercado de trabalho usando ciência de dados e técnicas de processamento de linguagem natural
  • O processamento paralelo com GPT-4o e LangChain é útil para tratar grandes volumes de dados rapidamente
  • Reflete a realidade de que ainda é difícil encontrar vagas com patrocínio de visto, o que pode ser útil para quem busca esse tipo de informação
  • A alta demanda por React e PostgreSQL é uma boa referência para quem quer aprender essas tecnologias
  • A ideia do mini SaaS pode ajudar muito candidatos a emprego se for realmente implementada

1 comentários

 
GN⁺ 2024-07-05
Opinião no Hacker News
  • A análise com GPT-4o é interessante

    • Recentemente analisei os conjuntos de dados de "Who is Hiring" e "Who wants to be hired" com pandas e spacy
    • Parece útil que o LLM consiga distinguir entre 'go' e 'rust'
    • É uma pena que não una node.js e nodejs, react-native e react native
    • Fico curioso sobre o motivo de repetir buscas no Google usando um script com selenium
    • Compartilhou um script que usa a API diretamente e uma regex para corresponder os títulos
  • É uma pena não conseguir encontrar o código-fonte do projeto no GitHub

    • Estou conhecendo langchain agora, e a API é menos consistente do que eu esperava
    • Fico pensando se também não daria para fazer com Ollama
    • É confuso ver vários wrappers tão entrelaçados
    • É preciso um tutorial para iniciantes
  • Obrigado por investir tempo e dinheiro no projeto

    • Estatísticas adicionais sobre "remote" e "in-person" são interessantes
    • O fato de empresas presenciais estarem contratando repetidamente pode significar crescimento, ou que elas têm dificuldade para encontrar candidatos
    • O desaparecimento de empresas remotas pode significar que encontraram o talento de que precisavam, ou que encerraram o negócio
  • É uma ótima combinação de LLM com análise tradicional

    • LLMs são excelentes para entender nuances humanas, sarcasmo e expressões idiomáticas
    • ML é excelente para extrair informações do contexto
    • Não dá para confiar em LLMs para cálculos numéricos de verdade
  • Empilhar barras no gráfico não é uma boa ideia

    • Porque não dá para avaliar corretamente a segunda camada
    • É melhor colocar remote e non-remote lado a lado em cada timestamp
  • É preciso usar escala logarítmica para o gráfico não parecer estranho

    • Em vez disso, foi feito um gráfico de bolhas com three.js em 300 linhas de código
    • Hacker age como hacker
  • Seria interessante fazer a mesma análise com Claude 3 Haiku

    • Custa 1/40 do preço do GPT-4o
    • Tenho a sensação de que os resultados seriam parecidos
  • Seria interessante comparar com uma amostra aleatória do Indeed ou do LinkedIn

    • Hacker News é um grupo enviesado em relação à indústria em geral
  • No gráfico de frameworks JS, existem bolhas tanto para "React Native" quanto para "React-Native"

  • Gostaria de ver uma análise semelhante de "Who Wants to be Hired"

    • Dá para identificar tendências entre pessoas que estão tendo dificuldade para conseguir emprego
    • Isso pode ajudar quem busca crescimento na carreira