【作業内容】
教育関連システムにおいて、全国の学校情報を自動で収集・解析し、データベースへ格納するための機能開発を行います。対象となる情報は学校の公式サイトに掲載されている文書・画像・PDF等の多様な形式を想定しており、データ取得から構造化、AI解析までを一貫して実装していただきます。
主な作業内容は以下の通りです。
・学校情報(HTML、PDF、画像等)の取得パターン整理と仕様検討
・各学校サイトのURLを対象としたスクレイピングツールの設計・開発
※Azure OCRを活用し、PDFや画像データからテキストデータを抽出
・抽出テキストをAIモデル(LLM)に解析させ、定義済みフィールドへのマッピング処理を設計
・RAG(Retrieval-Augmented Generation)を活用したデータ活用機能の開発
・試験および検証環境でのテスト実施、結果のフィードバック反映
LLMはGPTを利用予定ですが、ClaudeやGemini、Llamaなど他モデルの経験でも問題なし。