Tomoko Furuki(@komo_fr)
本ポスターでは、音声や画像といったマルチモーダルな入力から、Raspberry Pi Picoで動く小型カーを制御する試みを紹介します。 構成としては、Gradioで音声や手描きルートを入力し、それをLangChainを使って「前進」「右折」などを意味するコマンドに変換。Picoは簡易的なHTTPサーバとして動作し、Wi-Fi経由で指示を受けてカーを制御します。 本ポスターでは、この構成と技術要素を共有しながら、「こうしたらもっと面白くなるかも?」といった皆さんのアイデアも頂ければと思っています。ゆるく楽しく「生成AI × IoT」の可能性を探る取り組みです!
音声指示や手描きルートを使って小型カーを操作できたら面白そう! そんな発想から始まった、生成AIとIoTを組み合わせたゆるい実験を紹介します。
現在の構成は以下の通りです。
ポスターでは構成図やコード断片を共有しつつ、「こうしたらもっと面白くなるかも?」というアイデア交換の場にできればと思っています。お気軽にお立ち寄りください!
※ 紹介している技術はプロポーザル提出時のものです。使用するライブラリ・フレームワークは変わる可能性があります。
マルチモーダルな入力(音声や画像)と生成AIを組み合わせた実験的なネタを考えていたとき、「自然言語で小型カーに指示が出せたら、ちょっとペットっぽくて面白いかも?」と思ったのがきっかけです。
プロンプトや構成を試作するうちに、「まっすぐ行って右!」といった指示のほか、「おはよう!」「踊ってみて!」といった言葉もモーターの動きやLEDの色に変換できることがわかり、さまざまな応用例が思い浮かびました。「これは人に共有したい!」という気持ちが強くなったのが、本題材をまとめようと思ったきっかけです。
まだ試作段階ですが、構成や動かし方を共有しつつ、同じように「自分も何か作ってみたい!」と思う方が増えたら嬉しいです。
プロフィール
株式会社ビープラウド所属。 大学では知能情報メディアを専攻し、卒業後はシステム開発や、Pythonを使ったデータ活用のPoC開発、技術支援などに従事。 PyCon JP、PyCon Kyushu in Okinawa、SciPy Japanなどに登壇。
X: @komo_fr(https://x.com/komo_fr) GitHub: komo-fr (https://github.com/komo-fr)
執筆・翻訳: ・「Python インタラクティブ・データビジュアライゼーション入門 ―Plotly/Dashによるデータ可視化とWebアプリ構築―」(朝倉書店、共著) ・「世界標準MIT教科書 Python言語によるプログラミングイントロダクション 第3版」(近代科学社、共訳)