Site Reliability Engineer Sênior
hace 4 días
Prover guia técnico e mentor técnico outros engenheiros; Participar do desenvolvimento e manutenção da infraestrutura Cloud; Colaborar nas decisões técnicas envolvendo arquitetura e infraestrutura (dimensionamento de carga, distribuição de carga, estratégias para cache, etc.); Ser responsável por monitoramento e observabilidade dentro dos clusters e parcialmente nas aplicações também (uso de recursos das máquinas, gargalos de desempenho, análises preditivas de custo, etc.); Estar em rotação on-call para raros incidentes de indisponibilidade ou manipulação de serviço; identificar e ajudar a solucionar problemas de desempenho e segurança; identificar oportunidades de melhorias e realizar a implementação de automatizações; Elevar o nível dos sistemas de forma sustentável, por mecanismos de automação, soluções para que se tornem performáticos, escaláveis e disponíveis; Disseminar conhecimento sobre as melhores práticas do SRE; Planejar e direcionar a mudança de cultura através da Reabilidade do Sistema, incluindo: uso de padrões de arquitetura, gerenciamento de capacidade, sobre estrutura de nuvem utilizada pelos desenvolvedores; Zelar pela manutenção dos serviços produtivos, medindo e monitorando a disponibilidade, latência e integridade geral do sistema; Se envolva no desenvolvimento de seus pares em um ambiente de aprendizagem colaborativa (trabalho em par, revisão de código, palestras internas, etc). Desenhar e implementar estratégias de Branching, Versioning e Release para múltiplos times. Criar e manter Templates de Pipelines (YAML) reutilizáveis para padronizar o CI/CD da companhia. Arquitetar e manter a organização do Azure DevOps (Projects, Teams, Permissions) garantindo segurança e escalabilidade. Implementar e gerenciar Infraestrutura como Código (Terraform ) para provisionamento de recursos no Azure. Apoiar na definição e monitoramento de SLIs, SLOs e Error Budgets. Realizar troubleshooting avançado em ambientes produtivos (Kubernetes/AKS, App Services, Networking). Requisitos: Dedicar tempo para pesquisa: Avaliar novas ferramentas do ecossistema CNCF e features do Azure antes de serem adotadas em larga escala. Conduzir PoCs (Provas de Conceito) para validar hipóteses técnicas (ex: testar novas ferramentas de segurança, Service Mesh, Chaos Engineering). Disseminar conhecimento: atuar como mentor técnico para SREs plenos/júniores e desenvolvedores. Sólida experiência com Azure DevOps (Pipelines complexos, Multi-stage, YAML templates, Artifacts). Experiência avançada em Infraestrutura como Código (IaC), preferencialmente Terraform. Forte vivência com contêineres e orquestração (Docker e Kubernetes). Bons conhecimentos em observabilidade (Prometheus, Grafana, Datadog, Dynatrace ou Azure Monitor). Mentalidade de "Automate First". Diferenciais: Certificações Microsoft Azure (ex: AZ-400, AZ-104, AZ-305). Experiência com ferramentas de GitOps (ArgoCD ou Flux). Conhecimento em estratégias de segurança (DevSecOps, SonarQube, Trivy). Vivência prévia em times de Plataforma (Platform Engineering) ou System Tea Localidade da posição: Esta é uma posição Anywhere Office, você irá atuar 100% remoto. Por que construir sua carreira na Meta? Oferecemos autonomia, metas claras e um ambiente dinâmico e desafiador, onde os profissionais têm oportunidade de interagir com diferentes tecnologias, participar de todos os tipos de projetos, trazer novas ideias e trabalhar de qualquer lugar do Brasil e (por que não?) do mundo. Além disso, somos uma das melhores empresas para se trabalhar no Brasil segundo o Great Place to Work e uma das 10 empresas que mais crescem no país há 3 anos consecutivos, segundo o Anuário Informática Hoje. Quais são nossos valores? Somos pessoas servindo pessoas Pensamos e agimos como donos Crescemos e aprendemos juntos Buscamos excelência e a simplicidade Temos inovação e criatividade no nosso DNA Todas as pessoas são bem-vindas independentemente de sua condição, deficiência, etnia, crença religiosa, orientação sexual, aparência, idade ou afins. Queremos que você cresça conosco em um ambiente acolhedor e repleto de oportunidades. Se identificou? Então, #VemSerMeta A Meta transforma negócios com inovação e tecnologia, guiando empresas por uma jornada de evolução, que combina estratégia, serviços com inteligência artificial e execução com precisão. Com 35 anos de atuação, a Meta oferece um portfólio abrangente e ágil, em que cada solução é testada e aperfeiçoada em nossa própria operação, garantindo que os clientes recebam resultados reais, práticos e escaláveis. Na Meta, inovação não é apenas uma promessa: é o diferencial que aplicamos para simplificar a transformação digital, unindo o que há de mais avançado em tecnologia com a compreensão profunda dos desafios de cada cliente. #J-18808-Ljbffr
-
Senior Site Reliability Engineer
hace 2 semanas
WorkFromHome, Colombia Canonical A tiempo completoSenior Site Reliability Engineer – Canonical – Bogotá, D.C., Colombia Canonical is a leading provider of open source software and operating systems to the global enterprise and technology markets. Our platform, Ubuntu, is widely used in breakthrough enterprise initiatives such as public cloud, data science, AI, engineering innovation and IoT. Our...
-
Senior Site Reliability Engineer — Cloud
hace 2 semanas
WorkFromHome, Colombia AgileEngine A tiempo completoA leading software development firm in Colombia is seeking an experienced Site Reliability Engineer (SRE) to enhance cloud-native systems' reliability and efficiency. You will work closely with cross-functional teams, focusing on resilient AWS infrastructure and DevSecOps practices. Candidates should possess 8–10 years of experience in infrastructure or...
-
Remote Lead Site Reliability Engineer — Scale
hace 1 semana
WorkFromHome, Colombia Masabi A tiempo completoA leading fintech company is seeking a Lead Site Reliability Engineer to enhance system reliability. This remote role in Colombia involves designing reliable systems, contributing to incident response, and mentoring teams. Candidates should have substantial SRE or DevOps experience, particularly in AWS and infrastructure automation. A supportive and...
-
Site Reliability Engineer ID45689
hace 1 semana
WorkFromHome, Colombia AgileEngine A tiempo completoJoin to apply for the Site Reliability Engineer ID45689 role at AgileEngine AgileEngine is an Inc. 5000 company that creates award‑winning software for Fortune 500 brands and trailblazing startups across 17+ industries. We rank among the leaders in areas like application development and AI/ML, and our people‑first culture has earned us multiple Best...
-
Senior Site Reliability Engineer — Cloud
hace 1 semana
WorkFromHome, Colombia AgileEngine A tiempo completoA leading software development company in Colombia is seeking a Site Reliability Engineer to shape secure and scalable cloud-native systems. You will design resilient AWS infrastructure, lead CI/CD pipeline development, and mentor teams in DevSecOps practices. This role emphasizes innovation and collaboration with a focus on automation and observability....
-
Senior Engineering Manager, Site Reliability
hace 1 semana
WorkFromHome, Colombia Next League A tiempo completoSenior Engineering Manager, Site Reliability Join to apply for the Senior Engineering Manager, Site Reliability role at Next League As the Senior Manager of Site Reliability Engineering, you will be responsible for ensuring the reliability, scalability, and efficiency for a wide range of client systems, including organizations such as NASCAR, USOPC, and TGL....
-
Lead Site Reliability Engineer
hace 1 semana
WorkFromHome, Colombia Masabi A tiempo completoLead Site Reliability Engineer Introducing Masabi // At Masabi, we’re driving the fare payment revolution, powering the journeys of millions all over the world. We build fare collection platforms that allow riders to seamlessly buy and present tickets for public transport either on their mobile phones, from a ticket machine, or even by tapping their bank...
-
Senior Site Reliability Engineer
hace 1 semana
WorkFromHome, Colombia Truelogic Software A tiempo completoA technology solutions provider seeks a Senior Reliability Engineer to enhance the reliability of distributed systems on AWS and Kubernetes. This fully remote role emphasizes observability, automated scaling, and operational excellence. Ideal candidates should have over 5 years of relevant experience, strong skills in AWS services, and a background in...
-
Site Reliability Engineer
hace 1 semana
WorkFromHome, Colombia Patagonian A tiempo completoSite Reliability Engineer - Sr Looking for a Senior SRE engineer to join a team that works on a distributed architecture, spanning physical machines and virtualizing on‑prem host/cloud computing. Engineer will provide support centralizing DevOps and help existing teams adopt best practices within our environment. Candidate will manage complex tasks that...
-
Site Reliability Engineer
hace 2 semanas
WorkFromHome, Colombia Canonical A tiempo completoSite Reliability Engineer Canonical is a leading provider of open‑source software and operating systems to the global enterprise and technology markets. Our platform, Ubuntu, is widely used in breakthrough enterprise initiatives such as public cloud, data science, AI, engineering innovation, and IoT. With customers that include the world's leading public...