esuji
画像という非構造化データから構造化データを抽出することは、現代DXの最重要課題です。本トークでは、4コマ漫画のデータ化という具体的な挑戦を通じて、最新のLLM技術とPythonエコシステムを組み合わせた実践的で再現可能なアプローチを紹介します。
Gemini 2.0の登場以降、LLMによる日本語のOCR能力と非構造化データの理解は格段に進歩しました。領収書や健康診断の結果、手書き書類などのデータ化において、「もうAIで全部解決できるのでは?」 という期待は非常に高まったことでしょう。
しかし、現実はそう単純ではありませんでした。 私が取り組んだ4コマ漫画のデータ化プロジェクトでは、画像処理によるコマの切り出し、OCRでのセリフ抽出、深層学習での人物認識、検索可能なデータ配置、そして得られたデータの分析など、あらゆるPythonエコシステムを総動員してきました。LLMの登場で従来技術の一部は置き換えられましたが、すべてが魔法のように解決したわけではありません。
むしろ見えてきたのは、LLMと既存技術の適材適所な組み合わせと、人間が介入して修正を行うUI/UXの設計こそが、実運用には大事だということです。そして興味深いことに、高性能なLLMとAIエージェントは、腰が重くて取り組んでこれなかった実装や機能同士の統合、Pythonバージョンやライブラリのモダン化などを圧倒的なスピードで支援してくれる開発パートナーとしても機能したのです。
このトークでは、そんなLLMの現実と戦い、理想のためにまだPythonが必要な領域を見据えた奮闘記を共有します。4コマ漫画という一見ニッチな題材に込められた、あらゆる非構造化データ処理に通じる普遍的な学びが見えてくるでしょう。
イントロダクション:なぜ 4 コマ漫画なのか?
アプローチの変遷:LLM 以前の格闘
LLM の衝撃と現実:Gemini 登場で何が変わったか?
ハイブリッド・アプローチ:LLM と Python エコシステムの協調
開発の加速:AI エージェントは最強のペアプログラマー
まとめと今後の展望
プロフィール
https://x.com/esuji