The AI Robot Association (AIRoA) is launching a groundbreaking initiative: collecting one million hours of humanoid robot operation data with hundreds of robots, and leveraging it to train the world's most powerful Vision-Language-Action (VLA) models.
What makes AIRoA unique is not only the unprecedented scale of real-world data and humanoid platforms, but also our commitment to making everything open and accessible.
Researchers around the world will be able to evaluate their models on standardized humanoid robots through our open evaluation platform.
For researchers, this means an opportunity to:
Work on fundamental challenges in robotics and AI: multimodal learning, tactile-rich manipulation, sim-to-real transfer, and large-scale benchmarking
Access state-of-the-art infrastructure: hundreds of humanoid robots, GPU clusters, high-fidelity simulators, and a global-scale evaluation pipeline
Collaborate with leading experts across academia and industry, and publish results that will shape the next decade of robotics
Contribute to an initiative that will redefine the future of embodied AI—with all results made open to the world
Key Responsibilities
You will play a critical role in building the data backbone powering next-generation robotics foundation models:
Design and implement large-scale data pipelines that cover the full lifecycle of high-quality datasets for robotics foundation models—collection, processing, curation, and publishing.
Design, build, and maintain data schemas, storage solutions, and query interfaces to enable VLA researchers to efficiently discover, query, and consume curated datasets.
Collaborate closely with VLA researchers to capture evolving data requirements and continuously improve data pipelines through analysis and experimentationDesign and scale distributed data-processing pipelines capable of handling petabyte-scale multimodal datasets (e.g., RGB/Depth, point clouds) with full lineage and reproducibility.
Define data-quality metrics and build feedback loops to continuously monitor and improve data qualityRequirements
Required Qualifications
【1. Academic & Professional】
Master's degree in Computer Science, Engineering, or related field (or equivalent practical experience)
5+ years professional experience in data engineering / data platform development
Proven record of delivering production-grade, distributed data systems
【2. ETL / Distributed Data Processing】
3+ years designing and operating large-scale ETL / ELT pipelines using Spark, Flink, Ray or similar distributed engine
Hands-on xperience with using orchestration tools and designing pipelines (Airflow, Kedro, Dagster)
Proven optimization of workloads (10TB+/day scale)
【3. Lakehouse / Storage Architecture】
Designed or led implementations using Delta Lake, Apache Iceberg, or Hudi
Integrated with Trino, Athena, Databricks SQL, or Glue/Unity Catalog
Defined schema evolution, ACID compliance, partitioning strategy, time travel, and cost-performance optimization
Managed metadata, lineage, and catalog governance
Equivalent experience (e.g., BigQuery-based warehouse with versioned schema management) will also be recognized
【4. Data Modeling / Quality / Governance】
Built bronze/silver/gold data layer structures with dbt or equivalent
Defined and enforced data quality SLAs (freshness, completeness, accuracy)
Experience with Great Expectations, DataHub, OpenMetadata, or Monte Carlo
Implemented schema versioning, audit logging, and lineage tracking
Designed and owned data access control and catalog taxonomy
【5. Domain Understanding & Business Value】
Collaborated with product / analytics / AI teams to align platform design with business KPIs
Quantified platform impact (e.g., ↓30% compute cost, ↑3× query performance)
Can explain how architecture decisions drive measurable business outcomes
Preferred Qualifications
Experience working with terabyte or petabyte-scale datasets
Expertise in data lake storage systems such as Apache Iceberg or Delta Lake with query systems such as Trino and catalog systems such as Nessie
Expertise in distributed processing frameworks like Spark, Flink, or Ray
Expertise in workflow tools such as Airflow, Kedro, or Dagster
Experience in analyzing, monitoring, and managing data quality
Others (linguistic qualification, etc.)
【Highly appreciated】 English proficiency at business level; Japanese proficiency a plus.
Benefits
There are currently no comparable projects in the world that collect data and develop foundation models on such a large scale.
As mentioned above, this is one of Japan's leading national projects, supported by a substantial investment of 20.5 billion yen from NEDO.
This position will play a crucial role in determining the success of the project.You will have broad discretion and responsibility, and we are confident that, if successful, you will gain both a great sense of achievement and the opportunity to make a meaningful contribution to society.
Furthermore, we strongly encourage engineers to actively build their careers through this project—for example, by publishing research papers and engaging in academic activities.
Tokyo Ryutsu Center A Bldg. AW4-5, 6-1-1 Heiwajima, Ota-ku, Tokyo , Japan
Show more Show less
-
Shinagawa-ku, Tokyo Equinix ¥6,000,000 - ¥8,000,000 per yearエクイニクスはグローバルなデジタルインフラストラクチャー企業です。デジタル世界のリーダー企業は、当社の信頼性の高いプラットフォーム上に集まり、ビジネス成功のための基礎となるインフラストラクチャを相互接続しています。エクイニクスは、お客様がビジネス優位を加速するために必要となるすべての適切な場所、パートナーそして可能性にアクセスできるようにします。エクイニクスにより、お客様は俊敏性を拡大し、デジタルサービスの立ち上げを加速し、世界クラスの顧客体験を提供し、その価値をさらに高めることができます。 · ...
-
Data Engineer
1ヶ月前
Tokyo IBM ¥900,000 - ¥1,200,000 per yearデータ活用基盤実装をリードしながら、技術の専門家としてIBM Salesやサービス部門と連携して、IBMストレージ技術を利用したソリューション開発やIBMデータ活用基盤に関する技術支援を行います。 · IBMデータ活用製品を利用したソリューション開発および、研修開発 · IBMデータマネジメントソフトウェア:DB2の技術Q&A支援と製品技術情報の発信 · お客様ビジネスの課題を理解/整理し、AIやデータを活用した課題解決を実現するデータ活用基盤のアプローチ策定 · IBM製品を中心としたスキルを生かし、データ活用基盤構築の提案支援/構想策定/デザイン/デ ...
-
Data Engineer
1週間前
Ota AIRoA (AI Robot Association)AIRoA is launching an initiative to collect one million hours of robot operation data and train powerful VLA models.The project involves building a shared "robot data ecosystem" where datasets and trained models are available to everyone. · ...
-
Data Engineer
1週間前
Ota AI Robot Association Full time¥2,000,000 - ¥2,800,000 per yearAIRoA is launching a groundbreaking initiative: collecting one million hours of humanoid robot operation data with hundreds of robots. · The AI Robot Association (AIRoA) is looking for a Data Engineer to play a critical role in building the data backbone powering next-generation ...
-
Data Engineer
1週間前
Ota-ku AI Robot Association ¥2,800,000 per yearThe AI Robot Association (AIRoA) is launching a groundbreaking initiative: collecting one million hours of humanoid robot operation data with hundreds of robots, and leveraging it to train the world's most powerful Vision-Language-Action (VLA) models. · ...
-
Tokyo BLOOMTECH, Inc ¥8,000,000 - ¥15,000,000 per yearData Engineer/Fintechのデータエンジニアが主役の組織風土とグローバルな環境で、 · 東大発のFintech/ビッグデータスタートアップです。 · ...
-
東京都 港区 六本木, グリーグループ メタバース事業 ¥2,000,000 - ¥2,800,000 per yearREALITYアプリ/データエンジニア/Data Engineerの職種です。 · 現在の課題に対処するためのプロジェクトを立ち上げましたが、人数やスキルで進められていない状況があります。このポジションでは、「データ分析基盤の改善」を推進するために必要な技術者を募集しています。 · ...
-
Tokyo DXC Technology ¥900,000 - ¥1,200,000 per yearソフトウェア開発エンジニアのニーズが非常に高まっています。自動車の設計開発業務に関する知識、プロジェクトマネージメントスキル、構成のあるべき姿の提案・提言スキル、海外メンバーと共同でシステム開発を進めるスキルが必要です。3〜5年程度のシステム開発経験、英語力、組み込み開発の実務経験があること、自動運転領域のソフトウェア開発に従事した経験が求められます。 ...
-
東京都 区, 株式会社バイオス ¥3,500,000 - ¥4,000,000 per yearデータセンターやヘルプデスクなどのサポート業務に興味のある方、ITインフラに関する基礎知識をお持ちの方はご応募ください。 · ...
-
Tokyo TIER IV ¥483,000 - ¥1,166,000自動運転で発生するデータの収集・検索・分析を支えるデータ基盤の開発・運用を担当していただきます。 · ...
-
Tokyo DXC Technology ¥4,320,000 - ¥6,480,000 per year⾃動⾞制御装置・コックピットの制御を⽀えるソフトウェア開発を⾏う 仕事です。エンジニアとしてご⾃身が開発に直接的に関わるだけでなく、ヨーロッ パにいるメンバー(海外のDXCや傘下のLuxoftのメンバー)とやり取りをしながらお客様の要望を実現するような ポジションです。 · ・3〜5年程度のシステム開発経験 · ・英語⼒(お客様の要望をヨーロッパのメンバーと共有して開発に取り組むことが多いため、業務上英語が必須となります。) · ・組み込み開発の実務経験がある(できれば⾃動⾞関連) · ・⾃動運転領域のソフトウェア開発に従事した経験 · ・⾃動⾞のソフト ...
-
Tokyo DXC Technology ¥2,500,000 - ¥6,000,000 per year主に製造現場を支えるMES(製造実⾏システム)を取り扱う仕事になります。生産性と品質の向上に寄与できます。 ...
-
Data Engineer
1週間前
Ota-ku AI Robot Association Full timeThe AI Robot Association (AIRoA) is launching a groundbreaking initiative: collecting one million hours of humanoid robot operation data with hundreds of robots. · ...
-
Tokyo TIER IV自動運転で発生するデータの収集・検索・分析を支えるデータ基盤の開発・運用を担当していただきます。 · 車両からの走行データを収集・加工するデータパイプラインの開発・運用 · 走行履歴や統計情報を提供するAPIの開発・運用 · ...
-
Ota-ku, Tokyo Equinix $40,000 - $80,000 per yearApplies acquired job skills to work on tasks that are semi-routine in nature. Focus is on semi-routine tasks within standard operating procedures. Supports the overall team. · ...
-
東京都 千代田区 丸の内, 株式会社はーとふるセゾン数千万〜数億レコード規模の大規模データの統合と活用というスケール感のある環境で、設計から運用まで一貫して携わることができます。特定領域に閉じず、広範な技術領域とビジネス領域の両方に関与できる点が大きな特徴です。また、自動化・効率化の余地が非常に大きく、裁量をもって業務改善に取り組めるのも魅力の一つです。新しい技術やツールの導入・検証も積極的に推奨される文化があり、技術志向の高い方には最適な環境です。 · ...
-
Tokyo TIER IV ¥330,000 - ¥1,667,000 per yearデータエンジニアを募集いたします。Expert Data Engineerのポジションは、機械学習モデル学習に必要なデータセットの構築・改善の方針を決定することに責任を持ちます。Data Centric AIの思想に基づき、収集したデータの特性分析や分析コード実装を行い、機械学習モデルの性能改善に貢献することが求められます。 · ...
-
Yokohama, Kanagawa Michael Page ¥900,000 - ¥1,200,000 per yearAI技術の社会実装に貢献できるポジションです。グローバルな開発環境でスキルを磨けるチャンスです。 · 品質課題や利用状況の分析を通じて、改善・新機能導入を支援 · AIモデル開発に必要なデータの収集、クリーニング、加工処理 · 国内外のエンジニアと連携し、開発を推進 · 分散処理技術や自然言語処理の活用による効率的なデータ運用 · 大学卒以上 · Python、Java、Rなどによるデータ処理・分析経験 · SQL/NoSQLなどのデータベース知識 · Hadoop、Sparkなどの分散処理技術経験 · NLPやAIモデルの基礎知識 · 英語でのコミュニ ...
-
Tokyo Michael Page ¥4,000,000 - ¥10,000,000 per yearデータを活用したビジネス課題解決の経験2年以上を持つデータエンジニアを求めています。 · データモデリング、マイニング、レイヤリング等の実務経験 · Python、Scalaなどのプログラミングスキル、SQL最適化スキル · リレーショナル/非リレーショナルDBの使用経験、AWS経験尚可 · 統計的手法を用いたデータ分析・レポート作成 · 他部門やシステムとの連携によるデータ分析・報告システムの開発・実装 · 既存レポートシステムの改善・最適化 · データ分析 · データモデリング · プログラミングスキル · 経験に応じて年収最大1,000万円も可能 ...
-
Data Engineer
1週間前
Futakotamagawa Rise Rakuten ¥9,000,000 - ¥12,000,000 per yearWe are seeking Data Engineers/Data Analysts for our Data Solutions business.Support decision-making through data utilization projects commissioned by internal and external Rakuten clients. · ...
-
Tokyo Michael Pageほぼ在宅勤務大手IT企業でのData Engineerの募集最先端テクノロジーに触れグローバル規模のプロジェクトに携われる · 在宅勤務可能な柔軟なワークスタイル · データの収集変換統合を行うETLプロセスの設計と開発クラウドプラットフォームを活用したデータアーキテクチャの構築 · ビジネス要件を理解し、最適なデータソリューションを提案 · ...