AI企業「データ争奪戦」のフロンティア

最新テクノロジーに関する報道や論考を扱う非営利のニュースメディア『Rest of World』は、グローバルノースに偏らない視点を前面に打ち出し、独特の存在感を発揮している。
2025年7月~8月に公開された一連の記事も、AI開発でしのぎを削るビッグテックの競争において見過ごされがちな、水面下のデータ争奪戦の実相を興味深く伝えているので、見ていこう。
(1)AI大手の「リアル世界のデータ」争奪戦(『Rest of World』2025年8月21日)
AI giants race to scoop up elusive real-world data
https://restofworld.org/2025/ai-data-collection-global-deals/
オープンAI(OpenAI)、グーグル(Google)、パープレキシティ(Perplexity)といった名だたるAI企業は、インターネット上で収集できないユーザーのデータを獲得するために、さまざまな手段を講じているという。パープレキシティは、2022年にグーグルやオープンAI出身者たちによって設立された、AI搭載の対話型検索エンジンでグーグルの牙城に挑むユニコーン企業だ。
たとえばオープンAIは、Shopifyやシンガポールを本拠とするSeaグループのShopeeなどeコマース大手との提携を拡大し、膨大なマーケティングデータの入手を狙う。Seaグループとの提携を発表する声明で、オープンAI のマネージングディレクター、オリバー・ジェイ(Oliver Jay)は、「デジタルに精通した若いユーザーが多くモバイル普及率も高いアジアは、AI導入とイノベーションに関する最も成長性が高い市場だ」と述べた。
こうした提携によって、AI大手はユーザーの消費行動から、クエリ・商品選択・取引といった、体系立った行動データのセットを獲得できる。公開された単独のデータと比べてより価値が高いデータが手に入るわけだ。
インドに拠点を置く国際シンクタンクのオブザーバー・リサーチ・ファンデーション(Observer Research Foundation:ORF)のセキュリティ・戦略・テクノロジーセンター所長のサミール・パティル(Sameer Patil)は、「多様なデータセットにより、AIモデルのトレーニングの品質を向上させ、より正確なアウトプットを導くことができます」と、その利点を解説する。「フィンテックやヘルスケアといった特定分野のAIモデルを強化するうえでも役に立つでしょう」
(2)インドでグーグルとパープレキシティが激突(『Rest of World』2025年8月7日)
Google vs. Perplexity fight plays out in India as AI battle intensifies
https://restofworld.org/2025/google-perplexity-ai-search-india/
『Rest of World』は、グーグルとパープレキシティがインドで展開している、「一部のユーザーに高度なAIツールへの無料アクセスを提供し、それによって行動データを取得する」という共通する戦略を紹介している。
たとえばパープレキシティは、インドの通信大手エアテル(Bharti Airtel)と提携し、3億6,000万人のユーザーに、高度なAIモデルのPerplexity Pro版サブスクリプションを1年間無料で提供することにした(通常は年間200ドルほどかかる)。このことで、ベースとなるユーザー数が劇的に増加することが期待される。
Airtel partners with Perplexity, powers every single of its 360mn customers with Perplexity Pro
https://www.airtel.in/press-release/07-2025/airtel-partners-with-perplexity-powers-every-single-of-its-360mn-customers-with-perplexity-pro/
その数日前には、グーグルもインドの全大学生にGoogle AI Proスイートの1年間の無償アップグレードを提供するオファーを出していた。巨大な人口を誇り、かつ中国ほどには厄介な障壁がないインドで、AI大手による、検索シェア拡大とセットになったユーザーのデータ獲得競争が全面展開されている。
包括的なAI文化の研究を行う、ユトレヒト大学教授のパヤル・アローラ(Payal Arora)は、「インドはトレーニングデータセットの重要な供給源になっている」と述べている。
「(人種と言語の坩堝である)インドの膨大なデータセットで訓練することで、AIモデルは言語の多様性、リソースの少ない文脈、ノイズだらけの現実世界のデータに対応できるようになり、より堅牢になります。インドでうまく機能するものは、他の地域でも拡張できるでしょう」
(3)以前から懸念されていた高品質データ枯渇の問題
AIの大規模言語モデル(Large Language Model : LLM)が学習に使用するテキストデータが早晩不足するかもしれないという問題は、以前からテック業界でささやかれており、特にAIの研究機関EPOCH AIが2022年に公開した予測で、高品質なテキストデータ(正しい文法で書かれたもの)が2026年までに枯渇する可能性があるとしたことから、「2026年問題」の名で呼ばれるようになった。それまではAIの精度向上のボトルネックとして計算能力ばかりが注目されていたが、データ資源の問題がクローズアップされるようになったのだ。
Will We Run Out of ML Data? Evidence From Projecting Dataset Size Trends
https://epoch.ai/blog/will-we-run-out-of-ml-data-evidence-from-projecting-dataset
※なお、EPOCH AIは2024年に上記の予測の修正版を出しており、そこでは高品質なテキストデータの枯渇時期は2026年から2032年の間のこととされ、やや猶予が与えられた
https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data
AI学習のためにWeb上に公開されているテキストデータをかき集めるのが壁に当たることを見越して、新たな手段がさまざまに模索され、特定の目的に特化した小規模言語モデル(Small Language Model : SLM)の構築や、実世界のデータに似せた「合成データ(Synthetic Data)」の生成、廃れたSNSのデータの再利用などが推進されるようになった。
その他テック大手は、メディア・学術機関・民間企業などと提携して、独自データの収集に手を尽くしている。『Rest of World』が紹介するユーザーデータ争奪戦の最新状況も、この流れのなかに位置づけられる。
(4)ビッグテックを脅かす、「データ主権」の世界的潮流(『Rest of World』2025年7月9日)
Why Big Tech is threatened by a global push for data sovereignty
https://restofworld.org/2025/big-tech-data-sovereignty/
ここまでは、データを買い漁るAI大手の側から事態を眺めてきた。だが、データを供出する側の意識も変化してきていることを、『Rest of World』は伝えている。
専門家たちは、新興国や発展途上国が正当な見返りなしに、グローバルなAIシステムのデータ農場のような状態になる傾向を懸念し、国や地域が自国のデータに対する管理権を持つ「データ主権(Data Sovereignty)」の考え方をより浸透させる必要があると警鐘を鳴らしている。
2025年4月、ナイジェリアはグーグル、マイクロソフト(Microsoft)、アマゾン(Amazon)に対して、ナイジェリア国内にデータセンターを開設する具体的な期限設定を要請した。ナイジェリアはおよそ4年リクエストを続けてきたのだが、GAFAM勢力は約束を果たそうとしてこなかったのだ。
2025年7月に「データ法」を施行したベトナムも、外国の通信・電子商取引・オンライン決済事業者に対し、現地オフィスの設立と、ユーザーデータを少なくとも24ヵ月間ベトナム国内に保管することを義務付けている。
ワシントンに拠点を置く世界銀行(World Bank)のエコノミスト、シャラダ・スリニヴァサン(Sharada Srinivasan)は、「アフリカ連合(AU)を中心とするアフリカ諸国は、自国のデータから得られる経済的利益が、自国に拠点を置いていない大規模プラットフォームにのみ吸い上げられる現状に気づき、データと利益を自国に還元すべきだという結論に至りつつあります」と、潮流が変化していることを感じている。
南アフリカ大学教授のコリン・タクール(Colin Thakuur)は「グーグル、アマゾン、マイクロソフトは、発展途上国の脆弱な法律を悪用し、何の見返りも与えようとしなかったのです」と、より直截的に憤りを表現する。
「世界中のデータを支配しているこれらグローバル企業は、法の隙間をぬってデータを盗み出し、何の責任を負うこともなく売却してきました。しかしデータ主権を推進することで、ようやく発展途上国は自国の国民や企業に関する固有のデータを回収し、保護することができるようになるでしょう。残念ながら私たちアフリカ大陸全体の課題として、制度の枠組みを変えるスピードがあまりに遅いのですが」
(5)さらなる激化が予想されるデータ獲得競争
なお、最初に紹介した『Rest of World』の記事は、2025年8月12日にパープレキシティがグーグルのChromeブラウザを345億ドルで買収すると申し出たという速報を載せて締めくくられている。その後の事態の推移を簡単に確認してみよう。
パープレキシティの買収提案は、この時期のグーグルの苦境を利用したものだった。米司法省による反トラスト法(独占禁止法)訴訟で、2024年に米国連邦地方裁判所が「グーグルは検索市場での地位を違法に独占してきた」と認定したことを受けて、その是正措置が審議されている最中であり、パープレキシティとしては、司法がグーグルに対し、圧倒的なシェアを持つChromeブラウザの売却を命じた場合に、有力な買い手として名乗りを挙げる準備をしたわけだ。
パープレキシティが提示した345億ドルは、同社の直近の企業価値評価額180億ドルの2倍近い。しかし業界関係者には、これは必ずしも法外な提案と見なされなかった。
2025年7月にAIエージェント搭載の独自ブラウザ「Comet」を投入したばかりのパープレキシティにとって、35億人のユーザーとの接点を手に入れることができるChromeブラウザの買収は千載一遇の好機であり、巨額の賭けに見合うものだったのだ。
買収提案の少し前に、パープレキシティ創業者のアラヴィンド・スリニヴァス(Aravind Srinivas)は取材に応じ、AIエージェントの進化を遅らせる最大の課題は、アプリへのアクセスが阻まれていることだとしてユーザーデータ収集のネックについて述べ、同時に「オープンAIがChromeを所有すると、とんでもないことになる」と警告している。これははからずも、自分たちの狙いを明らかにした言葉かもしれない。パープレキシティがChromeを手中に収めてもまた、「とんでもないこと」が起きただろう。
Perplexity’s CEO Sees AI Agents as the Next Web Battleground
https://www.wired.com/story/perplexitys-ceo-sees-ai-agents-as-the-next-web-battleground/
結果として、パープレキシティの目論見は外れた。2025年9月2日、米国連邦地方裁判所はグーグルに対し、一部データの競合他社への提供などを命じつつ、最も厳しい措置である「Chrome売却をともなう事業分割」までは求めない判断を示した。
これは今後、GAFAMに対する類似の訴訟における指針となる可能性もあり、ビッグテックにとっての福音と考えることもできるが(措置の発表の直後、アルファベットの株価は時間外取引で9%近く上げた)、「もはやグーグルは唯一最大の脅威ではなくなった」という、もうひとつの側面にも注意する必要がありそうだ。今回の判事のアミト・メータ(Amit Mehta)は率直に「生成AIの出現が訴訟の流れを変えた」と述べている。
パープレキシティが構想したように、AIブラウザが「賢いエージェント」の未来像を目指して進化を続ける以上、データ獲得競争は今後さらに姿を変えて激化していくと思われる。すぐれたAIを養い育てるエサとして、AI大手は貪欲に、品質の良いデータを求め続けなければならないであろうから。