Tokyo ExaWizards Full time

【仕事内容】

As a senior Site Reliability Engineer, you will be responsible for developing solutions, implementing requirements, assisting in creating key processes and procedures, that facilitate product planning, execution and delivery. We aim to solve society's issues with AI, so our mission is to solve the Engineering Department's issues

  1. Lead the design, implementation, and management of scalable and reliable infrastructure solutions in public cloud environments (e.g., AWS).
  2. Lead the development and maintenance of Kubernetes clusters, ensuring optimal performance, availability, and security.
  3. Collaborate with development teams to provide expertise in designing architecture, act as a trusted advisor for development teams, provide consultations on infrastructure-related matters and guide them toward effective and scalable solutions.
  4. Monitor system performance, troubleshoot complex issues, and implement proactive measures to ensure high availability and reliability.
  5. Lead incident response and resolution, conducting post-mortem analyses to identify areas for improvement.
  6. Lead the professional development initiatives within the team by mentoring junior members, conducting comprehensive code reviews to uphold quality and best practices, and orchestrating training and workshops to enhance overall skill sets.

シニアSREとして、製品の企画、実行、およびデリバリーを円滑にするための主要なプロセスと手順の開発、要件の実装に責任を持ちます。AIを使用して社会の課題を解決することを目指しているため、エンジニアリング部門の問題を解決する使命を担います

  1. AWSなどのパブリッククラウド環境でスケーラブルで信頼性のあるインフラソリューションの設計、実装、および管理をリードします。
  2. Kubernetesクラスターの開発とメンテナンスをリードし、最適なパフォーマンス、可用性、およびセキュリティを確保します。
  3. 開発チームと協力してアーキテクチャの設計に専門知識を提供し、開発チームに対して信頼できるアドバイザーとして機能し、インフラに関連する問題に対するコンサルテーションを行い、効果的かつスケーラブルなソリューションに導きます。
  4. システムのパフォーマンスを監視し、複雑な問題のトラブルシューティングを行い、高い可用性と信頼性を確保するための積極的な対策を実施します。
  5. インシデントの対応と解決をリードし、事後分析を実施して改善の余地を特定します。
  6. チーム内のプロフェッショナルな成長イニシアチブをリードし、ジュニアメンバーへのメンタリング、コードの総合的なレビューによる品質とベストプラクティスの維持、全体的なスキルセットの向上を図るためのトレーニングとワークショップを主催します。

【必須要件】

  • Extensive expertise in at least one cloud platform (i.e. AWS, Azure, GCP, etc...) and experience in designing and leading the management of scalable cloud-based infrastructure
  • Strong expertise in infrastructure-as-code solutions such as Terraform
  • Strong operational expertise in containerization technologies, especially Kubernetes
  • In-depth knowledge of source control, CI/CD, infrastructure automation, orchestration, deployment automation and configuration management
  • Solid understanding of networking and security best practices
  • Excellent problem-solving skills and the ability to lead collaboratively in a team-oriented environment.
  • While our team is mostly English-speaking, you should be comfortable enough talking in Japanese with other internal stakeholder
  • 少なくとも1つのクラウドプラットフォーム(例:AWS、Azure、GCPなど)における幅広い専門知識と、スケーラブルなクラウドベースのインフラストラクチャの設計および管理のリーダーシップ経験
  • Terraformなどのインフラストラクチャのコード化ソリューションにおける強力な専門知識
  • 特にKubernetesにおける強力な運用の専門知識
  • ソースコントロール、CI/CD、インフラストラクチャの自動化、オーケストレーション、デプロイメントの自動化、および構成管理に関する深い知識
  • ネットワーキングおよびセキュリティのベストプラクティスに対する確かな理解
  • 優れた問題解決能力およびチーム指向の環境で協力的にリーダーシップを発揮できる能力
  • チーム内言語は主に英語となりますが、社内関係部門と日本語でコミュニケーションをとることが求められます。

【歓迎要件】

  • AWS Solutions Architect certifications or knowledge on par with those
  • Certified Kubernetes Administrator or knowledge on par with those
  • Familiar with scripting languages (Shell, Python, Golang)
  • Familiar with extended infrastructure-related tooling such as Ansible or Chef
  • Experience in working with large software systems developed on Unix/Linux
  • Experience of working with monitoring and metrics systems (e.g Grafana, Datadog, etc.)
  • Experience in leading teams through incident response and post-mortem analysis
  • Experience in working closely together with development, product and business teams
  • Bi-lingual (business English level& Japanese daily conversation level or English daily conversation level & Japanese native level)
  • AWS Solutions Architectの認定資格 または同等の知識
  • Certified Kubernetes Administratorの認定資格 また同等の知識
  • Shell, Python, Golang などのプログラミング言語の経験
  • Ansible, Chefなどの拡張インフラ関連ツールの経験
  • Unix/Linux上で開発された大規模なソフトウェアシステムの運用経験
  • モニタリングおよびメトリクスシステム(例:Grafana、Datadogなど)の管理運用経験
  • インシデント対応と事後分析を通じてチームをリードした経験
  • Engineering, Product, Businessチームなどと連携しながら業務を進めた経験
  • バイリンガル(ビジネス英語レベル&日本語の日常会話レベル または 英語の日常会話レベル&日本語のネイティブレベル)

【求める人物像】

  • You are comfortable at explaining complex recommendations to engineering and infrastructure teams, while discussing technical trade-offs in product development with other work colleagues.
  • You are highly resourceful, analytical, and have a combination of focus, flexibility, self-motivation, and integrity.
  • Our team values communication with candor (openness, frankness, honesty) and the 4 Agile Values to ensure everybody can grow and progress together as well as support the company's CREDO and values, and you are comfortable to work in such an environment.
  • Engineering, Infrastructureチームなどとプロダクト開発における技術的課題を議論しながら、複雑な提案を分かりやすく説明できる方
  • 柔軟性, 論理的思考, 自発性, 誠実さを持っている方
  • 私たちのチームは、会社の理念やバリューに貢献しながら、チーム全員が切磋琢磨し成長していくため、オープンで率直なコミュケーションとアジャイルの価値観を重視しています。とても働きやすい環境です。


  • Minato City Mercari, inc. フルタイム

    This job requires Japanese language ability. JD is available in Japanese only. 本ポジションは英文JDの用意がありません。 · はじめに · あらゆる価値を循環させ、あらゆる人の可能性を広げる · 「地球資源が限られているなか、より豊かな社会をつくるために何ができるか」。2013年、創業者の山田進太郎が世界一周の旅で抱いた課題意識から、フリマアプリ「メルカリ」は生まれました。私たちは、物理的なモノやお金に限らずあらゆる価値を循環させることで、誰もがやりたいことを実現し、人や社会 ...


  • Tokyo Siemens Electronic Design Automation Japan K.K. Permanent

    Siemens EDA is a global technology leader in Electronic Design Automation software. Our software tools enable companies around the world to develop highly innovative electronic products faster and more cost-effectively. Our customers use our tools to push the boundaries of techno ...


  • 東京都, (株)アークエッジ・スペース

    超小型人工衛星の運用ソフトウェアの技術開発を担当いただきます。宇宙は技術の総合格闘技とも言われており、モノづくりに携わってきた方はもちろん、それ以外の方であっても十分に技術力が活かせる環境です。 · 当社の超小型衛星は小さいものだとペットボトルほどのサイズで、その中に精密技術が結集されております。今まで培われたご経験を活かし、技術力で宇宙に挑戦する仲間を探しております。組織としてまだまだ発展途上ですが、仕組みをつくるところから、ともに汗を流し、事業成長に貢献いただける方を募集いたします。 ...


  • Tokyo SORACOM フルタイム

    ソラコムの Customer Reliability Engineer は、SORACOM をご利用のお客様に対し、チケットシステムを介した対話による直接的な支援と、セルフサービスに向けたコンテンツの拡充による間接的な支援の両面を提供します。そして常に Customer Centric な視点からお客様の課題を理解し、解決までお客様と向きあい、お客様の IoT ビジネスの成功をサポートします。 お客様の真のニーズに寄り添うために、ソラコムの各サービスの基本的な使い方の解説から、AWS などのクラウドと連携した閉域網の構築、リファレンスデバイスをもちいた開 ...


  • Tokyo Rakuten Full time

    Description · : Business Overview Rakuten Group Inc. has 70+ services. RakutenGroup Inc. has created one of the world's most unique and robust ecosystems by linking these various services through a common membership and loyalty program. · Department Overview · CPED (Cloud Pla ...


  • Tokyo Rakuten Full time

    Description · : Business Overview · Payment system using credit card, electronic money and web application is social infrastructure. Rakuten Card Co., Ltd. which is the biggest credit card company in Japan keeps growing as the leading company. · Department Overview · The miss ...


  • Tokyo Synspective Full time

    · The Solutions Development Department at Synspective is responsible for developing models and algorithms which produce insights using multiple sources of data, including our own satellite data. To do this, we develop an analytics platform to produce geoscience insights efficien ...


  • Tokyo Ahead Group

    Ahead Consulting is seeking a Site Reliability Engineer to join one of our Global E-Commerce clients to handle: · Responsibilities: · Lead the onboarding of new large-scale services (> 3,000 BMaaS nodes) to the Search Platform · Design and maintain the search service, including c ...


  • Tokyo TEKsystems

    Job Summary · We are looking for a SRE . Our client is one of the largest global insurance companies in the world located in Tokyo. · Job Description: · Reviews artifacts and CI/CD pipeline to ensure compliance and efficiency. · Leads team by example, supports their development ...


  • Tokyo Guidewire Full time

    Required Skills & Experience · Bachelor's Degree in Computer Science or related field · Familiarity with the Agile software development lifecycle · Background with Linux systems administration and strong scripting skills in Bash, Python, Go, etc. · Experience in AWS Cloud Platfor ...


  • Tokyo TEKsystems

    Job Summary · We are looking for a SRE experience in using Terraform and Elastic Kubernetes Service. Our client is one of the largest global insurance companies in the world located in Tokyo. · TerraformとElastic Kubernetes Serviceを使用したSRE経験を募集しています。クライアントは東京にある世界最大級のグローバル保険会社です。 ...


  • Tokyo TEKsystems

    Job Summary · We are looking for a SRE . Our client is one of the largest global insurance companies in the world located in Tokyo. · Job Description: · Communicate with project team and analyze AKS environment · Opening firewall request · Setting up environment in Azure · Req ...


  • Tokyo Imperva

    募集概要: · Imperva は、アプリケーション、データ、ネットワークセキュリティのマーケットリーダーです。当社では、日本におけるグローバルセールスエンジニアリングチームとして経験豊富なシニアセールスエンジニアを募集しています。Impervaは、データセンター内の重要なアプリケーションや価値の高いデータに対する、新しいカテゴリのセキュリティ分野のパイオニアであり、市場を牽引しています。 · サイバーセキュリティは大きな課題です。ニュースでも取り上げられ、急速に成長している分野です。あらゆる企業にとって重要なツールであり、私たちの専門領域です。 · ...


  • Tokyo キャディ(株)

    本チームは、プロダクトの機能開発と信頼性のバランスを保ち、ユーザーに最大の価値を提供することを目指しています。SREチームは主にGoogleが提唱するプラクティスを参考にし、以下のような活動を行っています。 · 【詳細】■Metrics & Monitoring:SLO の実装、運用。オブザーバビリティの導入推進■Capacity Planning:サービスの成長に伴う負荷の予測設計、負荷テストの設計や実施、インフラ整備による図面処理能力の適正化■Change Management:漸進的デリバリーなどの普及を含めたリリースエンジニアリング■Emerge ...


  • Tokyo TEKsystems

    Job Summary · Site Reliability Engineer (SRE) · Why Open? Our client is expanding to support an ambitious project, a groundbreaking initiative that aims to redefine urban living through technology and innovation. They are on a mission to finish and release the project by 2025, a ...


  • Tokyo Rakuten Full time

    Description · : Business Overview The Technology Platforms Division (TPD) is responsible for building and operating the infrastructure and ecosystem platforms which power the Rakuten Group. Our mission is to provide our Rakuten Cloud and Ecosystem Platforms which will deliver Co ...


  • Tokyo Amazon Japan G.K. フルタイム

    全世界のAmazonの成長を支えているのが、お客様が欲しい商品を最短でお手元に届けできる、高品質な輸送ネットワークです。 · 一人でも多くのお客様へ商品をより多く、より早く、より安価で届けるために、現在でも取り扱う商品を増やし、お届けする地域も拡大、新しいサービスの提供に向けて挑戦を続けています。 · Amazon Japanの物流輸送企画部では、その輸送ネットワーク上の重要拠点であるソートセンターを拠点として、新しいプロセスの創出、既存プロセスの改善、それらを安全の犠牲なく実現し、継続的な品質・生産性の向上を担うプロセスエンジニアを求めています。 · ...


  • Tokyo Renesas Electronics Full time

    Job Description · Overview · We are seeking a skilled and experienced Site Reliability Engineer to join our team. In this role, you will be part of the AI & Cloud Engineering (ACE) Division and AI Workbench team. Our AI Workbench is a cloud-based environment to accelerate Automo ...


  • Tokyo UNLOCK DESIGN Full time

    We are Unlock Design, a recruitment agency based in Japan, and the job description below is an opportunity with one of our forward-thinking client companies. We aim to ensure a trustworthy and considerate experience for our candidates, emphasizing their privacy and long-term care ...


  • Tokyo (株)LIXIL

    LIXILグローバルでの情報セキュリティに関する業務に携わっていただき、下記業務をメインで担当いただきます。 · ■クラウドセキュリティとゼロトラストセキュリティの導入推進 · ■アプリケーションやAPIのセキュリティ対策の検討と推進 · ■情報セキュリティ教育や従業員意識向上施策の実施 · ■ユーザからの情報セキュリティに関する問合せ対応(調査、アドバイス含む) ■既存IT環境のセキュリティ強化、ツールやプロセスの標準化検討と推進 ■セキュリティ施策の企画、監査対応、予実管理 ...