Question 1

どのビジョンモデルが入ってる？

Accepted Answer

VisionTagger には、あらかじめ設定されたビジョンモデルが4つ入ってる：Qwen2.5-VL 7B Instruct、Gemma 3 4B IT、InternVL3 8B Instruct、Pixtral 12B。小さいモデルはだいたい速く動く一方で、大きいモデルはより細かい出力になりやすいけど、Mac と設定次第でメモリが多めに必要になる。トライアルでモデルを比べて、ワークフローと欲しいディテールに合うまでパラメータをいじってみて。

Question 2

自分のモデルも使える？

Accepted Answer

使えるよ。GGUF 対応のビジョンモデルと、それに対応するプロジェクターファイル（これも GGUF）があるなら、VisionTagger で [リンク](https://youtu.be/V21D3kcudQc) して内蔵の選択肢みたいに使える。サードパーティ製モデルの利用がライセンスや利用規約に合ってるかは自分で確認してね。

Question 3

VisionTagger はネット接続が必要？

Accepted Answer

VisionTagger はローカルで動いて、画像や生成したメタデータをアップロードしない。ネットが必要なのは、アプリ内でモデルをダウンロードするときと、アプリのアップデートを確認してダウンロードするときだけ。

Question 4

無料トライアルはどういう仕組み？

Accepted Answer

無料トライアルは最大100枚まで、無料で処理できる。期限もないよ。購入前に、モデル選択、内蔵セクション、カスタムフィールド、エクスポートのオプションまで、全部の流れを試せる。

Question 5

対応してる画像形式と取り込み元は？

Accepted Answer

VisionTagger は JPEG、PNG、TIFF、HEIC、WebP みたいな一般的な形式に対応してる。Mac 上のフォルダから選ぶことも、写真ライブラリから直接選ぶこともできる。

Question 6

メタデータの項目はカスタマイズできる？

Accepted Answer

できるよ。内蔵セクション（タイトル、説明、キーワード、コンテンツ＆スタイル、安全性＆コンプライアンス）に加えて、[カスタムセクションを作って自分のフィールドを追加](https://youtu.be/S2oEM6LTHVQ) できる。各フィールドはデータ型（Boolean、Text、または List of Texts）と専用のプロンプトを持てるから、モデルに何を抽出させるかをピンポイントで決められる。

Question 7

VisionTagger はどんな出力ができる？

Accepted Answer

VisionTagger は画像ごとに JSON か TXT を書き出せるし、バッチ全体を1つの JSON/TXT ファイルにまとめることもできる。Finder タグも付けられる。XMP サイドカーや画像ファイルへのメタデータ埋め込みは、[ExifTool](https://exiftool.org) と連携して対応する（別途インストール）。

Question 8

ExifTool は入れないとダメ？

Accepted Answer

[ExifTool](https://exiftool.org) が必要なのは、XMP サイドカーと画像ファイルへのメタデータ埋め込みだけ。JSON/TXT の書き出しや Finder タグの適用だけなら、ExifTool はいらない。

Question 9

写真ライブラリに書き戻せる？

Accepted Answer

書き戻せるよ。その出力オプションを選べば、VisionTagger が写真ライブラリにメタデータを書き戻せる。書き込む前に、必ず公開サマリーが表示される。

Question 10

モデルのパラメータは調整できる？

Accepted Answer

できる。設定で、temperature、max tokens、context length、top-P、top-K みたいな生成パラメータをスライダーで調整できる。創造性と一貫性のバランスを取ったり、出力の長さやディテールをコントロールできる。

Question 11

どれくらい速い？どんなMacが必要？

Accepted Answer

VisionTagger は Apple Silicon（M1 以降）が必須で、macOS Tahoe 26.0 以降で動く。速度は Mac、選んだモデル、画像の解像度、選んだメタデータ項目に左右される。小さいモデルはだいたい速くて、大きいモデルは品質が上がることが多いけど、RAM が多めに必要になることがある。

Question 12

モデルってどれくらい容量食う？

Accepted Answer

モデルのダウンロードはローカルに保存される。だいたい1モデルあたり 4–8 GB くらい見込んで（モデルによって変わる）。

Question 13

既存のファイルやメタデータを上書きしちゃう？

Accepted Answer

VisionTagger は出力を書き込む前に公開サマリーを出して、既存ファイルが上書きされる可能性があるなら警告する。保存される前に、やることを確認してOKできる。

Question 14

利用データとか分析は取ってる？

Accepted Answer

取ってない。VisionTagger には analytics や telemetry がなく、データもアップロードしない。ライセンスの有効化とアップデート確認は、必要なときだけその機能のためにネットワークリクエストが発生する。

画像メタデータを生成。ローカルで。

モデルを選ぶ — それとも自分のを持ち込む

自分のメタデータスキーマを定義する

必要な場所へメタデータを出力する

ユースケース

システム要件

画像からメタデータへ — 6ステップ

買い切り

VisionTagger FAQ