IO Gen-AI Tech Digest 2025-05-07

こんにちは。
今回は、前日公開されたテック系記事リストから、生成AIやAIエージェント関連の記事(英語)をピックアップし、内容を日本語で要約します。実際に記事本文を参照し、要点を丁寧にまとめています。API/SDKや実装記事では、記事中の実装コードも引用しています。


TL;DR

  • Geminiアプリで画像を複数同時アップロード可能に。プロンプトの柔軟性が向上
  • Ruby on RailsでDrive-thru向け音声AIアシスタントを構築した具体的な実装解説
  • MongoDB AtlasとAIの連携による大規模ECのグローバル展開・AIレコメンドの事例
  • OpenAIがAIコード補助ツール「Windsurf(旧Codeium)」を約30億ドルで買収合意
  • AIモデルを無限キャンバスでノードベース対話できる「RabbitHoles AI」の紹介
  • Deepfakeポルノ最大手サイトの閉鎖、グローバルでの法規制強化の動き

Gemini prompts now let you upload multiple images

Geminiアプリにおける大きなアップデートが発表され、AndroidiOS、Webで1プロンプト当たり最大10枚の画像アップロードが可能になりました。
従来は1枚しか同時送信できなかったため、複数画像で文脈を伝えたい際の制約が大きかったのですが、この改善によりプロンプトの表現力や用途が大幅に向上します。
画像読み取りの柔軟性が高まることで、AI活用の幅も広がります。なお、バージョン2.0 Flash、2.5 Flash、2.5 Proの現行モデル全てで利用可能です。
ユーザーのフラストレーション低減とフィードバック収集にもGoogleは引き続き積極的です。

キーワード
Gemini, マルチモーダルAI, 画像プロンプト, Google, アップデート


Developing a voice AI app in Rails for drive-through ordering

本記事ではRuby on RailsとOpenAI GPT-4 APIを用いた、ドライブスルー注文向け音声AIアシスタントの実装詳細を解説します。
Action Cable/WebSocketでリアルタイム通信を実現し、顧客の音声入力を即時でAIに送り返答もリアルタイム生成。音声に対するAIの発話を画面に字幕表示する新機能や、注文開始時の自動ウェルカムメッセージ機能が追加されています。
モダンなブラウザのAudioContext仕様への対応など、実用的なノウハウも紹介。ドライブスルービジネスや他業種の音声AIエージェント構築にも応用できる事例です。

注目コード例(記事内抜粋)

AIからの音声応答を受信し、必要に応じて字幕テキストをフロントに伝える部分

elsif message["type"] == "response.output_item.done"
  if message["item"]["type"] == "function_call"
    puts "Function call done: #{message}"
  else
    transcript = message["item"]["content"][0]["transcript"]

    ActionCable.server.broadcast("open_ai_#{@session_id}", {
      type: "new_message",
      message: transcript
    })
  end

フロントエンドで字幕をDOMに追加する処理

else if (data.type === "new_message") {
        // Create a new DOM element to show the new message
        const messageContainer = document.getElementById("messages");
        const messageElement = document.createElement("div");
        messageElement.innerText = data.message;
        messageContainer.appendChild(messageElement);
      }

注文開始時にAIからの挨拶音声を流す部分

def start_order
  @openai_client.greet_customer(event_id: SecureRandom.uuid)
end

これらの例からも、WebSocket経由でAI-ユーザー間の音声/テキスト双方向インタラクションを自然に統合できることが分かります。

キーワード
音声AI, Rails, GPT-4, ActionCable, WebSocket, ドライブスルー, 字幕


Ubuy Scales E-Commerce Globally and Unlocks AI With MongoDB

中東発のECサービスUbuyは、MongoDB Atlasへの全面移行でグローバルeコマース規模とAI活用を飛躍的に強化しました。
旧来のMySQLからMongoDB Atlasに切り替えることで、検索応答速度が5秒→ミリ秒単位と大幅に改善。AIベースのレコメンドや意味検索(Vector Search)実装で、パーソナライズや商品発見の直感性を大幅向上。
また、MongoDB MCP Serverとの連携によりAIエージェントによる自然言語によるデータ探索・管理・コード生成も実現し、ソフトウェア開発の未来形として期待されています。
大規模データ/グローバル展開+生成AIという最新ECの実例として必見です。

キーワード
MongoDB Atlas, AIレコメンド, Vector Search, グローバルEC, MCP Server, エージェントAI


RabbitHoles AI – Node based chat with AI models on an infinite canvas

RabbitHoles AIは、AIモデルとの対話をノードベースで無限キャンバス上に展開可能なチャットツールです。
従来のリニアなチャットUIとは一線を画し、複数ノードで思考や会話の分岐を視覚的に管理しながらAIとやり取りできるのが特徴です。
プロトタイピングやブレインストーミング、複雑なタスク管理・エージェント構成の可視化等に有効であり、LLMやAIアシスタント活用の新しい体験として注目されています。

キーワード
RabbitHoles, ノードベースチャット, 無限キャンバス, AI対話, LLM


OpenAI agrees to buy Windsurf for about $3 billion, Bloomberg News reports

OpenAIが、AIコーディング支援ツール「Windsurf」(旧Codeium)の買収に約30億ドルで合意したとBloombergが報じました。
WindsurfはAIアシストでのコード補完やソフトウェア開発を効率化するツールとして急成長中。
OpenAIは今後、ChatGPTのコーディング機能拡張やエンタープライズ向け強化、開発体験向上など幅広いシナジーを狙っているとされます。
LLM上でのエージェント的コード生成・データベース連携等、AI活用開発基盤の一層の強化が予想されます。

キーワード
OpenAI, Windsurf, コード補完AI, 買収, LLM, 開発エージェント


AI-generated porn site Mr. Deepfakes shuts down

AIによるディープフェイクポルノ最大手「Mr. Deepfakes」サイトが、重要インフラのサポート停止で突如閉鎖。
同サイトではAIで生成された有名人および一般人のノンコンセンサス(同意なし)性的コンテンツ販売・配布が横行していましたが、「Take It Down Act」など米国の法規制強化と社会的な批判が高まり閉鎖に至りました。
専門家は、“最大の不正ディープフェイク流通拠点”が消滅したことは大きな一歩としつつも、類似問題は他へ拡散する恐れがあり、更なる法整備や社会的啓発が要ると解説しています。

キーワード
ディープフェイク, AI倫理, ノンコンセンサス, 法規制, Take It Down Act


まとめ

今回はAIやエージェント技術に関する最新の動向を幅広く取り上げました。Geminiや生成AI×ECの最新事例、Ruby on Rails音声AIの技術詳細、Windsurf買収での開発体験変革、ノードベースAIチャットなど、AIの日常活用・開発現場が急速に進化しています。
一方で倫理的課題や法規制も厳しさを増しており、今後も技術発展と社会適応のバランスが重要となるでしょう。


IOではエンジニアを積極採用中!

IO(アイオー)では、フロントエンドから生成AI、機械学習やバックエンド領域まで、多様なポジションでエンジニアを常時募集しております。
少しでもご興味をお持ちいただけた方は、まずはカジュアル面談からでも大歓迎です。未来を創るプロダクト、新しい仲間をお待ちしています!

herp.careers
herp.careers