About AIRoA
The AI Robot Association (AIRoA) is launching a groundbreaking initiative: collecting one million hours of humanoid robot operation data with hundreds of robots, and leveraging it to train the world's most powerful Vision-Language-Action (VLA) models.
What makes AIRoA unique is not only the unprecedented scale of real-world data and humanoid platforms, but also our commitment to making everything open and accessible. We are building a shared "robot data ecosystem" where datasets, trained models, and benchmarks are available to everyone. Researchers around the world will be able to evaluate their models on standardized humanoid robots through our open evaluation platform.
For researchers, this means an opportunity to:
- Work on fundamental challenges in robotics and AI: multimodal learning, tactile-rich manipulation, sim-to-real transfer, and large-scale benchmarking.
- Access state-of-the-art infrastructure: hundreds of humanoid robots, GPU clusters, high-fidelity simulators, and a global-scale evaluation pipeline.
- Collaborate with leading experts across academia and industry, and publish results that will shape the next decade of robotics.
- Contribute to an initiative that will redefine the future of embodied AI—with all results made open to the world.
Key Responsibilities
You will play a critical role in building the data backbone powering next-generation robotics foundation models:
- Design and implement large-scale data pipelines that cover the full lifecycle of high-quality datasets for robotics foundation models—collection, processing, curation, and publishing.
- Design, build, and maintain data schemas, storage solutions, and query interfaces to enable VLA researchers to efficiently discover, query, and consume curated datasets.
- Collaborate closely with VLA researchers to capture evolving data requirements and continuously improve data pipelines through analysis and experimentation.
- Design and scale distributed data-processing pipelines capable of handling petabyte-scale multimodal datasets (e.g., RGB/Depth, point clouds) with full lineage and reproducibility.
- Define data-quality metrics and build feedback loops to continuously monitor and improve data quality.
【1. Academic & Professional】
- Master's degree in Computer Science, Engineering, or related field (or equivalent practical experience).
- 5+ years professional experience in data engineering / data platform development.
- Proven record of delivering production-grade, distributed data systems.
【2. ETL / Distributed Data Processing】
- 3+ years designing and operating large-scale ETL / ELT pipelines using Spark, Flink, Ray or similar distributed engine.
- Hands-on xperience with using orchestration tools and designing pipelines (Airflow, Kedro, Dagster).
- Proven optimization of workloads (10TB+/day scale).
【3. Lakehouse / Storage Architecture】
- Designed or led implementations using Delta Lake, Apache Iceberg, or Hudi.
- Integrated with Trino, Athena, Databricks SQL, or Glue/Unity Catalog.
- Defined schema evolution, ACID compliance, partitioning strategy, time travel, and cost-performance optimization.
- Managed metadata, lineage, and catalog governance.
- Equivalent experience (e.g., BigQuery-based warehouse with versioned schema management) will also be recognized.
【4. Data Modeling / Quality / Governance】
- Built bronze/silver/gold data layer structures with dbt or equivalent.
- Defined and enforced data quality SLAs (freshness, completeness, accuracy).
- Experience with Great Expectations, DataHub, OpenMetadata, or Monte Carlo.
- Implemented schema versioning, audit logging, and lineage tracking.
- Designed and owned data access control and catalog taxonomy.
【5. Domain Understanding & Business Value】
- Collaborated with product / analytics / AI teams to align platform design with business KPIs.
- Quantified platform impact (e.g., ↓30% compute cost, ↑3× query performance).
- Can explain how architecture decisions drive measurable business outcomes.
- Experience working with terabyte or petabyte-scale datasets.
- Expertise in data lake storage systems such as Apache Iceberg or Delta Lake with query systems such as Trino and catalog systems such as Nessie.
- Expertise in distributed processing frameworks like Spark, Flink, or Ray.
- Expertise in workflow tools such as Airflow, Kedro, or Dagster.
- Experience in analyzing, monitoring, and managing data quality.
【Highly appreciated】 English proficiency at business level; Japanese proficiency a plus.
There are currently no comparable projects in the world that collect data and develop foundation models on such a large scale. As mentioned above, this is one of Japan's leading national projects, supported by a substantial investment of 20.5 billion yen from NEDO.
This position will play a crucial role in determining the success of the project. You will have broad discretion and responsibility, and we are confident that, if successful, you will gain both a great sense of achievement and the opportunity to make a meaningful contribution to society.
Furthermore, we strongly encourage engineers to actively build their careers through this project—for example, by publishing research papers and engaging in academic activities.
●Work locationTokyo Ryutsu Center A Bldg. AW4-5, 6-1-1 Heiwajima, Ota-ku, Tokyo , Japan
-
Shinagawa-ku, Tokyo Equinix ¥6,000,000 - ¥8,000,000 per yearエクイニクスはグローバルなデジタルインフラストラクチャー企業です。デジタル世界のリーダー企業は、当社の信頼性の高いプラットフォーム上に集まり、ビジネス成功のための基礎となるインフラストラクチャを相互接続しています。エクイニクスは、お客様がビジネス優位を加速するために必要となるすべての適切な場所、パートナーそして可能性にアクセスできるようにします。エクイニクスにより、お客様は俊敏性を拡大し、デジタルサービスの立ち上げを加速し、世界クラスの顧客体験を提供し、その価値をさらに高めることができます。 · ...
-
Data Engineer
2週間前
Tokyo Tenth Revolution Group不動産×テクノロジー業界大手企業で、データエンジニアを募集しています。グループ全体のデータマネジメントを担うポジションです。 · データ基盤の設計・開発・運用 · データパイプライン(ETL / BI / Reverse ETL)の整備 · データガバナンス・セキュリティ対応 · ...
-
Data Engineer
2週間前
Tokyo Denodo ¥9,000,000 - ¥12,000,000 per yearDenodoでは、カスタマーサクセス組織の一員として、グローバルオフィスチームの一員として · 高齢者を介護することを目的とした介護サービス提供の会社です。 · ...
-
Minato SB Intuitions ¥6,500,000 - ¥18,000,000+SB Intuitionsについて+ · かつての自動車や飛行機、電話やインターネットがそうであったように、生成AIは、今、人類の営みを大きく変えようとしています。... ...
-
Data Engineer
2週間前
Tokyo Michael PageAzure・Databricks グローバル環境でキャリアを伸ばせる · )Job summary · Azure・Databricks )Data Engineer ) · ...
-
Minato AXA Japan/ アクサ・ジャパン職務内容 · AWS、Databricks、および現代のデータスタックアーキテクチャパターンを使用して、スケーラブルでプロダクショングレードのデータプラットフォームインフラストラクチャコンポーネントを設計および実装する。 · ...
-
Data Engineer
2週間前
Tokyo Michael PageAzure Databricksを活用した最新データ基盤構築 · グローバル環境でキャリアを伸ばせる · ...
-
Tokyo BLOOMTECH, Inc ¥6,000,000 - ¥15,000,000 per year業績好調の上場企業×充実の福利厚生あり · ・フレックス×リモート勤務(フルリモートも相談可能) · ・外国籍エンジニアが多数活躍中 · ...
-
Tokyo BLOOMTECH, Inc箓厥こJPめTokyo · ・国内有数のスタートアップ · ・外国籍多数活躍中 · ・フルリモート/フルフレックス · ...
-
Tokyo BLOOMTECH, Inc Remote job国内有数のスタートアップで、外国籍多数活躍中のフルリモート/フルフレックスでのデータエンジニアを探しています。年収範囲は5,000万円から14,000万円です。 · ...
-
Tokyo BLOOMTECH, Inc ¥8,000,000 - ¥15,000,000 per yearData Engineer/Fintechのデータエンジニアが主役の組織風土とグローバルな環境で、 · 東大発のFintech/ビッグデータスタートアップです。 · ...
-
Tokyo BLOOMTECH, Inc Remote job当社は個人がベストのパフォーマンスを発揮できる働き方を推奨しています。コアタイムなしのマンスリーフレックス制度を導入しており、プライベートな予定や家庭の事情に合わせて勤務時間を調整したりリモートワークを活用したり、様々なフィールドのメンバーがそれぞれのスタイルで力を発揮しています。 · ...
-
東京都 港区 六本木, グリーグループ メタバース事業 ¥2,000,000 - ¥2,800,000 per yearREALITYアプリ/データエンジニア/Data Engineerの職種です。 · 現在の課題に対処するためのプロジェクトを立ち上げましたが、人数やスキルで進められていない状況があります。このポジションでは、「データ分析基盤の改善」を推進するために必要な技術者を募集しています。 · ...
-
Data Engineer
1ヶ月前
Ota AI Robot Association Full time¥2,000,000 - ¥2,800,000 per yearAIRoA is launching a groundbreaking initiative: collecting one million hours of humanoid robot operation data with hundreds of robots. · The AI Robot Association (AIRoA) is looking for a Data Engineer to play a critical role in building the data backbone powering next-generation ...
-
Data Engineer
4週間前
Ota AIRoA (AI Robot Association)AIRoA is launching an initiative to collect one million hours of robot operation data and train powerful VLA models.The project involves building a shared "robot data ecosystem" where datasets and trained models are available to everyone. · ...
-
Tokyo TIER IV ¥483,000 - ¥1,166,000自動運転で発生するデータの収集・検索・分析を支えるデータ基盤の開発・運用を担当していただきます。 · ...
-
東京都 区, 株式会社バイオス ¥3,500,000 - ¥4,000,000 per yearデータセンターやヘルプデスクなどのサポート業務に興味のある方、ITインフラに関する基礎知識をお持ちの方はご応募ください。 · ...
-
Tokyo TIER IV自動運転で発生するデータの収集・検索・分析を支えるデータ基盤の開発・運用を担当していただきます。 · 車両からの走行データを収集・加工するデータパイプラインの開発・運用 · 走行履歴や統計情報を提供するAPIの開発・運用 · ...
-
ISE】Data Engineer
13時間前
Chiba IBMISEおよびIBMのスペシャリストと部門横断で協業し、先進技術を組み合わせた新規ソリューションを創出する機会が多くあり、データ・エンジニアとしての幅を広げていただくことができます。 · ...
-
Tokyo TIER IVPerception技術開発に関するデータエンジニアを募集いたします。 /> · TIER · IVは、オープンソースの自律走行ソフトウェアであるAutowareの開発・運用を行い、自律走行に関連する幅広いアプリケーション、ソリューション、サービスを提供しています。 · Expert Data Engineerのポジションは、機械学習モデル学習に必要なデータセットの構築・改善の方針をデータ分析による知見に基づいて意思決定することに責任を持ちます。 · ...
-
Ota-ku AI Robot AssociationYou will play a critical role in building the data backbone powering next-generation robotics foundation models. · ...