平成二十一年(2005年)九月二十日に開始したブログ累計記事 現在100127通目です(後で数えなくていいように)
このホームページをお読みになると私の今の仕事がよくわかります。
https://batonz.jp/partner_adviser/keieisenr
まずこれがGeminiで調べた「Gemini」「Perplexity」「Genspark」の比較表です。
❶私の聞き方が悪かったのでしょう。同じGoogleのAIなのに、Gensparkの情報がほとんどありません。ということはAIの保有情報は経験値が増えるに従って、どんどん増えてくくるのですが、全てがすべて信じてはいけないと言うこと。
❷今日は、この表の中での「マルチモーダル」という言葉をみて参りましょう。
マルチモーダルとは、テキスト、画像、音声、動画など、異なる種類のデータを統合して処理する始syテムや手法のことです。AIでは、複数のデータソース(源)を同時に扱う能力です。より複雑な現実世界をとられて汎用的なAIを開発するために利用します。例えばテキストと画像を組み合わせることで、画像の説明を生成したり、画像からテキストを抽出したりできます。
⚫️自動運転
カメラ、レーダー、GPSなど複数のセンサーデータを統合して、周囲の状況を正確に認識し運転のをサポート
⚫️医療診断
CT、X線の画像、音声データなどを統合して、病気の早期発見や診断制度向上に貢献する
⚫️生成AI
テキスト、画像、音声などを入力してさまざまなコンテンツを生成
⚫️画像検索
画像とテキストを組み合わせることでさまざまな画像検索が可能
❸Gemciniの中で「マルチモーダル」という言葉が複数回出てきています。マルチモーダルAIは複数のデータ形式を扱うことでより複雑な任務に対応できます。データプラニングなどの技術進歩で、マルチモーダルは急速に進化しています。いろいそな分野で活用されるようになってきています。
マルチモーダルAIは、複数のデータ形式を統合して処理することで、人間の五巻のように複雑な情報を理解し、分析することを可能にします。なので、私のコンサル業務に関しては、まずGeminiを研究し、proに早めに切り替えます。
次回は、Perplexityでやった3つの比較を見ていきます。今回書いたGeminiでの分析では、Deep researchは勝手に出てきました、これも調査対象に加えます。
使い方を 考え抜いて 400年 万葉がなが 漢字を使う
それならば 生成AI 使うのに 不易流行 人が使ひて
コメントする