Google apresenta o SensorLM que traduz sinais de sensores em insights de saúde centrados no ser humano

Google Research Lança o SensorLM Para Transformar Dados Multimodais Usáveis em Insights de Saúde Compreensíveis

Divisão focada tanto na pesquisa fundamental como aplicada, a Google Research apresentou o SensorLM, uma nova família de modelos de fundação sensor-linguagem projetados para melhorar a interpretação de dados de sensores vestíveis de alta dimensão. Treinado em extensivas 59,7 milhões de horas de entrada de sensores multimodais de mais de 103.000 indivíduos, o SensorLM é capaz de produzir descrições detalhadas e legíveis por humanos a partir de sinais complexos de sensores, estabelecendo um novo padrão no campo da análise de dados de sensores.

Para desenvolver o conjunto de dados de treino para o SensorLM, foram amostrados aproximadamente 2,5 milhões de dias-pessoa de dados de sensores desidentificados de 103.643 participantes em 127 países. Estes dados foram coletados de dispositivos Fitbit e Pixel Watch durante o período de 1 de março a 1 de maio de 2024, com todos os participantes a fornecerem consentimento informado para a utilização dos seus dados anonimizados em pesquisas destinadas a avançar o conhecimento geral em saúde e ciência.

Os pesquisadores implementaram um pipeline hierárquico automatizado que gera legendas descritivas ao calcular estatísticas, reconhecer padrões e resumir eventos diretamente a partir dos dados do sensor para enfrentar o desafio de rotular dados em larga escala. Essa abordagem possibilitou a criação do que atualmente é o maior conjunto de dados conhecido que alinha entradas de sensores com linguagem, superando a escala dos conjuntos de dados usados em pesquisas anteriores.

A arquitetura do SensorLM incorpora e harmoniza metodologias de pré-treinamento multimodal amplamente utilizadas, notavelmente o aprendizado contrastivo e o pré-treinamento generativo, em uma estrutura unificada. Na fase de aprendizado contrastivo, o modelo é treinado para associar segmentos de dados de sensores com as descrições textuais apropriadas selecionadas de um grupo de alternativas.

Este processo permite ao modelo diferenciar com precisão entre várias atividades físicas ou estados fisiológicos, como distinguir entre uma natação leve e um treino focado em força. Na fase de pré-treinamento generativo, o modelo aprende a produzir descrições textuais diretamente a partir de entradas de sensores, melhorando sua capacidade de transmitir interpretações complexas e sensíveis ao contexto de dados de alta dimensão. A integração dessas estratégias de treinamento permite que o SensorLM forme uma compreensão multimodal abrangente e nuançada de como os dados do sensor se mapeiam para a linguagem natural.

Experimentos Revelam as Capacidades Avançadas do SensorLM em Classificação Zero-Shot, Aprendizagem Few-Shot e Compreensão Cross-Modal

De acordo com a Pesquisa do Google, o desempenho do SensorLM foi avaliado em diversos cenários do mundo real envolvendo reconhecimento de atividades humanas e aplicações de saúde, mostrando melhorias claras em relação aos modelos líderes existentes nessas áreas. O SensorLM apresenta um desempenho particularmente bom em ambientes com dados rotulados limitados. Demonstrou fortes capacidades de classificação zero-shot, identificando corretamente 20 atividades diferentes sem exigir ajuste do modelo, e mostrou aprendizado few-shot eficaz, adaptando-se rapidamente a novas tarefas com exemplos mínimos. Sua funcionalidade de recuperação cross-modal também permite a interpretabilidade mútua entre dados de sensores e linguagem natural, permitindo que os usuários pesquisem padrões de sensores usando texto ou gerem descrições relevantes a partir de entradas de sensores—uma abordagem que apoia fluxos de trabalho de análise de especialistas.

Além da classificação, o SensorLM é capaz de gerar resumos textuais estruturados e conscientes do contexto com base apenas nas entradas de sensores vestíveis. Comparações experimentais indicam que essas saídas são geralmente mais coerentes e precisas do que aquelas geradas por modelos de linguagem não específicos do domínio. A pesquisa também observou que o desempenho do SensorLM escala de forma consistente com aumentos nos dados de treinamento, tamanho do modelo e recursos computacionais, alinhando-se com princípios previamente estabelecidos na escalabilidade de modelos. Esses achados sugerem que a abordagem permanece em uma fase inicial de seu potencial e merece uma exploração contínua.

O desenvolvimento do SensorLM introduz uma estrutura para interpretar dados complexos de sensores vestíveis através da linguagem natural. Isso é possibilitado por um novo método de legendagem hierárquica e o que se acredita ser o maior conjunto de dados de sensor-linguagem já montado até hoje. Como resultado, a família de modelos SensorLM representa um avanço na melhoria da acessibilidade e utilidade dos dados de saúde pessoal. Ao permitir que máquinas interpretem sinais fisiológicos através da linguagem, este trabalho estabelece as bases para um feedback de saúde mais personalizado e informativo. Esforços futuros explorarão a expansão para domínios como perfilagem metabólica e monitoramento avançado do sono, com o objetivo mais amplo de apoiar ferramentas de bem-estar personalizadas, sistemas de monitoramento clínico e assistentes de saúde digital capazes de interação em linguagem natural. O desenvolvimento e a implementação de quaisquer produtos futuros baseados nesta pesquisa podem estar sujeitos a validação clínica e supervisão regulatória.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)