Apresentado recentemente pelo Google Research, o ScreenAI é uma nova tecnologia interessante do Google.
Embora ainda esteja em fase de pesquisa, continue lendo para saber mais sobre o ScreenAI, como ele funciona e quando você poderá experimentar a tecnologia sozinho.
O que é ScreenAI?
ScreenAI é descrito como sendo um novo modelo de linguagem de visão para interfaces de usuário e infográficos que alcança resultados de última geração em UI e tarefas baseadas em infográficos.
Em outras palavras, ScreenAI é um modelo de linguagem de visão, o que significa que pode compreender simultaneamente dados de imagem e texto. Ele foi construído para eliminar a complexidade da leitura e compreensão de dados de interfaces de usuário (UIs) e infográficos, como gráficos, diagramas e tabelas.
Simplificando, você pode pedir ao ScreenAI para resumir uma captura de tela ou gráfico e deverá receber um resumo claro e conciso dele. Você também pode fazer perguntas ao ScreenAI com base na captura de tela e receber respostas corretas com base nos dados fornecidos.
Como funciona o ScreenAI?
Em primeiro lugar, a arquitetura do ScreenAI é construída no modelo de linguagem-imagem multilíngue PaLI, mas o ScreenAI realmente melhora isso com o pix2struct. Pix2struct é um modelo pré-treinado de imagem para texto para compreensão de linguagem visual, que pode ser ajustado em tarefas que contenham linguagem situada visualmente.
ScreenAI usa dois estágios para funcionar: um estágio de pré-treinamento de aprendizagem auto-supervisionado, obtido por meio de páginas da web acessíveis ao público, e um estágio de ajuste fino que usa dados classificados manualmente por usuários reais.
Lançados junto com o ScreenAI estão três novos conjuntos de dados para ajudar a avaliar o modelo de forma mais conclusiva. Esses conjuntos de dados incluem Screen Annotation, que avalia a capacidade de compreensão de layout do ScreenAI, ScreenQA e Complex ScreenQA para avaliar sua capacidade de resposta a perguntas (QA).
Quais são os benefícios do ScreenAI?
ScreenAI é capaz de tarefas que antes eram complexas, como controle de qualidade e controle de qualidade específico da UI, anotações, resumos e navegação.
De acordo com o Google Research, o ScreenAI é capaz de alcançar resultados de última geração em tarefas baseadas em UI e infográficos e um desempenho “melhor da categoria” em comparação com modelos de tamanhos semelhantes.
Onde posso experimentar o ScreenAI?
Teremos que ser pacientes para experimentar esta tecnologia inovadora, já que o ScreenAI ainda é um projeto de pesquisa e não está atualmente disponível para uso público. Também não há indicação ainda de quando isso poderá mudar.