IT Data Platform Team, Lead Site Reliability Engineer
MetLife Japan
English follows in Japanese.
Job Summary
レガシーデータウェアハウスを最先端のビッグデータプラットフォームに移行し、データ活用を推進する、技術トレンドの変化に適応した強力なデータエンジニアを募集しています。この職務は、経験豊富なクラウド・データエンジニア、またはソフトウェアエンジニアリングのバックボーンを持つインフラストラクチャエンジニアに最も適しています。
リード・サイト・リライアビリティ・エンジニア
- このポジションが所属するデータ・プラットフォーム・チームは、AzureのPaaSサービスを中心に構成する全社データプラットフォームの開発・運用に責任を担っています。このポジションは運用チームのリーダーとして、データプラットフォームの安定稼働、及び継続的な改善、移行を可能とするプラットフォームの管理・維持を担当していただきます
- プラットフォームの運用・保守。稼働中のプラットフォームに対するday-to-dayワークのマネジメント。リードSREとして、チームとプラットフォームの運用・保守業務を遂行します。以下主な業務です。
- 変更・移行管理 – サービスの追加、変更、システムの移行、各種設定変更等、本番環境のプラットフォームに関する変更作業
- インシデント・問題管理 – プラットフォーム及びプラットフォーム上で稼働するシステムで発生するインシデントについて、レベル1サポートとして迅速なアクション、またはエスカレーションの実施。エンジニアリングチームと協業したトラブルのクローズ、再発防止策の立案・実施。
- モニタリング・アラート – コマンドセンターと協業したプラットフォームのモニタリング、アラート発砲時のアクション
- 構成管理・ドキュメンテーション – 構成情報の維持管理、システム運用に必要な設計書、マニュアル等の維持管理
- レポーティング – Dailyヘルスチェック、システム稼働に関する定期報告
- KPIの測定、SLA達成のための継続的な運用改善
- BCP/DR – DRエクササイズ、BCP発動時のシステム切り替え・切り戻し
- その他システム保守作業 – システムの安定稼働、健全な状態を維持するのに必要な各種保守作業(セキュリティ対応、パッチ適用、バージョンアップ、EoL対応等含む)
- エンジニアリング –Site Reliability Engineerとして、システムの継続的な開発・移行に耐えうるプラットフォームの維持に必要なソフトウェアエンジニアリング(DevOps、システム保守に必要な作業の自動化等)の計画立案、実装
- チームマネジメント – SRE/Operationチームのリード、ベンダーマネジメント。マネージャーポジションではありますが、単なるチームマネジメントだけではなく、エンジニアとして自らも設計・実装し、チームをリードすることができる方が望ましいです(チーム管理:50%、エンジニアリング業務:50%)
- 文化的に多様でグローバルに分散したチームと協力し、共通の目標をアジャイルデリバリー方式で達成します
フレキシブルな勤務時間、在宅勤務のオプションが用意されています。ご応募お待ちしております!
===================================
Looking for strong data engineer who is adaptive and adoptive to changing technology trends, migrate legacy data warehouse to the cutting-edge Big Data platforms, and drive data utilization. This role would be best suited for an experienced cloud data engineer or infrastructure engineer with software engineering backbone.
Lead Site Reliability Engineer
- The data platform to which the individual belongs is responsible for engineering and SRE/operation of the company-wide data platform, which consists mainly of Azure’s PaaS services. This position will serve as a leader on the operations team and will be responsible for managing and maintaining the platform to ensure stable operation of the data platform and to enable continuous improvement and migration of the platform.
- Operation and maintenance of the platform. As the Lead SRE, the individual will perform management of day-to-day work for the platform, working with SRE/Operations team. Here are examples of the operational tasks:
- Change/ Release Management – Implement necessary changes related to the platform in the production environment
- Incident/Problem Management – Prompt action or escalation of incidents that occur on the platform and applications running on the platform as Level 1 support. Close problems in collaboration with the engineering team and develop and implement measures to prevent recurrence.
- Monitoring and Alert – monitoring of the platform in cooperation with the command center and action when alerts are fired
- Configuration Management and Documentation – Maintain configuration information, design documents, manuals, etc. necessary for system operation latest with accuracy information
- Reporting – Daily health checks, regular reports on system operation
- Service Delivery – Achieve KPI and continuous improvement for SLA
- BCP/DR – Join DR exercises, system failover/failback when BCP is triggered
- Other works related to platform operations – Conduct maintenance tasks required for stable system operation and health (including security support, patching, version upgrades, EoL support, etc.)
- Engineering -As a Site Reliability Engineer, plan and implement software engineering (DevOps, automation of tasks required for system maintenance, etc.) that allows the team to execute continuous system development and migration to the platform
- Team Management – Lead SRE/Operation team that consist of FTE and vendors. Although this is a manager position, the candidate should be able to not only manage the team but also deliver features through designing / hands-on work as an engineer (Workload allocation:50% for Team Management and 50% for Engineering would be desirable).
- Working with a culturally diverse and geographically distributed team to achieve a common goal in an agile delivery fashion.
Flexible working hours and work from home options available!
Responsibilities
データ・プラットフォーム・チームのマネージャーとして、このポジションは以下のResponsibilityを担います。
- データプラットフォームのリードSRE、データ・プラットフォーム・チーム長にレポート
- FTE, パートナー企業で構成するSRE/Operationチームのマネジメント
- 堅牢で拡張性の高いデータプラットフォームの品質・稼働に対するオーナーシップ
- アジャイルな環境の元、システム運用面からのソフトウェアエンジニアリングを用いたCI/CDの実現、作業の自動化実現のオーナーシップ
- 関係IT部門との密接な連携、他チームに対するコンタクトポイント
- グローバルのIT戦略へのアラインメント、メットライフ・グローバル、またはリージョナルチームとのコラボレーション
- データ関連プロジェクトのマネジメント、デリバリー
- 日々の開発・保守運用業務のマネジメント、KPIの達成
- エンジニアチームと協業したデータプラットフォームの安定稼働。レベル1サポートとしてシステムトラブルの早期解決
- 新しい技術の情報収集、PoT/PoCの実施
- DevOpsの実践、およびチーム内への推進
As a manager of the data platform team, the individual will be responsible for the followings:
- Act as a core engineering member of data platform and report to Head of Data Platform
- Lead SRE/Operations team that consists of FTE and vendors, manage day-to-day operations, achieve KPIs
- Ownership on delivery of robust and scalable data platform capabilities
- Ownership on promoting automation of operational works and CI/CD through software engineering with Agile fashion
- A point of contact for related team in IT organization
- Align with global IT strategy and establish secure collaboration structure with MetLife global/regional teams
- Drive data related project as project manager and deliver
- Keep the data platform stable, working with the engineering team. Take prompt actions to solve system troubles / incidents as 1st level of support
- Research market and new technologies and conduct PoT/PoC
- Practice and promote DevOps to the team
Requirements
経験:
- ITもしくはデータ部門で、10年以上の業務経験
- 2-3名の小規模チームのリード経験、もしくはIT/Data関連のプロジェクトのリード経験
- アジャイル、スクラム、セイフでのプロジェクト参画経験、3年以上のDevOpsでの運用経験
- 3年以上のSite Reliability Engineerもしくは同等のロールの経験
- クラウド上にデータプラットフォームを構築した経験、もしくは、クラウドのシステム運用・保守経験
スキルセット:
- エンジニアリングマインドを持ち、自ら考え行動を起こすことができる
- クラウドデータプラットフォーム(GCP、AWS、またはAzure)の設計・導入、運用設計、または、オンプレミスシステム(特にサーバー、データベース、ネットワーク)での同様のスキル
- 効率的なシステム運用を実現するためのプログラミング(シェルスクリプト、Power Shell、コンテナ、AKS等)や製品知識、導入スキル
- コア・インフラ技術に対する基礎的な理解(ネットワーク、DNS, Firewall, LB, Active Directory, RDB, Windows/RHEL、インフラセキュリティ等)
- SQLスクリプトへの精通。RDMBS(Oracle, SQL Server and etc.) / NoSQL DB (MongoDB, Cassandra, etc.…)の構築、またはデータ移行経験
- ビッグデータ基盤、もしくはHadoopのアーキテクチャへの基本的な理解
- 言語
- 日本語:流暢(会話だけでなく読み書きも不自由なくできること)、外国籍の方はJLPT N1保有もしくは同程度
- 英語:ビジネスレベル
Experience:
- 10+ years of working experience in IT or Data domain
- Manage a small team of 2-3 members or Lead IT / Data related projects
- Engagement in projects in Agile/Scrum/SAFe fashion, 3+ years of experience in operations under DevOps
- 3+ years of experience in a Site Reliability Engineer or similar role
- Experienced in building data platform on operating cloud platform
Skills:
- Self-motivated with engineering mind-sets
- Proven track record for designing/building or operating model of cloud data platform (GCP, AWS, Azure) or on-prem infrastructure
- Programing skills (Shell scripts, Power Shell, Container, AKS and etc.), knowledge of solutions / products
- Essential knowledge of core infrastructure technologies (network(routing, protocols), DNS, Firewall, LB, Active Directory, RDBMS, Windows/RHEL, Infra-security and etc.)
- SQL expert. Proven track record for deployment of RDBMS (Oracle, SQL Server and etc.) and NoSQL DB (MongoDB, Cassandra, etc.…), experience on logical database migration is plus
- Essential knowledge on Big-Data / Hadoop and eco-systems
- Language
- Japanese: Fluent (both verbal and writing), JLPT N1 or equivalent of N1
- English: Business+
Preferable
- Azure PaaS Experience is plus (ADLS Gen2, ADF, Synapse Analytics, SQL Database, Cosmos DB, AKS, Network/Security). / Azureのデータ系PaaSサービスの導入・利用実績
- Experience in offshore team management / オフショアチームの管理
- Domain knowledge for Life Insurance / 生命保険業務に対する理解
Job Level
3. Senior level