WhisperはOpenAIが開発した高精度な音声認識モデルです。多言語対応で、日本語を含む99言語の音声をテキストに変換できます。ノイズの多い環境でも安定した認識精度を発揮し、文字起こし作業の自動化に適しています。
ユースケース: 音声の文字起こし自動化
- 多言語対応
- 高精度
- オープンソース
Robust Speech Recognition via Large-Scale Weak Supervision
WhisperはOpenAIが開発した高精度な音声認識モデルです。多言語対応で、日本語を含む99言語の音声をテキストに変換できます。ノイズの多い環境でも安定した認識精度を発揮し、文字起こし作業の自動化に適しています。
ユースケース: 音声の文字起こし自動化
Robust Speech Recognition via Large-Scale Weak Supervision
AIエージェントに「スキル」を装備させよう!Codex用スキルカタログ — skills
openai/skillsは、OpenAIのコーディングAIエージェント「Codex」に特定の作業能力を追加するための「スキル」を集めたカタログです。スキルとは、指示書・スクリプト・リソースをまとめた
PDF・Word・Excel・画像…なんでもMarkdownに一発変換!AI時代の万能ファイル変換ツール — markitdown
MarkItDownは、PDF、Word、Excel、PowerPoint、画像、音声、HTMLなど、さまざまな形式のファイルをMarkdown(シンプルな書式付きテキスト)に変換するPython製の
LLMアプリのレシピ集!ChatGPTから音声エージェントまで実例満載 — awesome-llm-apps
awesome-llm-appsは、ChatGPTやGeminiなどの大規模言語モデル(AIの文章生成技術)を使った実用的なアプリケーションの作り方を集めたレシピ集です。AIエージェント(自動でタスク
写真1枚でリアルタイム顔入れ替え!ワンクリックでディープフェイク映像を生成 — Deep-Live-Cam
Deep-Live-Camは、たった1枚の写真を用意するだけで、ウェブカメラの映像やビデオの中の顔をリアルタイムに別人の顔に入れ替えられるソフトウェアです。「顔を選ぶ→カメラを選ぶ→ライブボタンを押す
使うほど賢くなるAIエージェント — 学習・記憶・自動化を全部入りで月5ドルから運用 — hermes-agent
Hermes Agentは、Nous Research社が開発した「自己改善するAIエージェント」です。会話するたびに経験からスキルを自動生成し、ユーザーの好みや過去のやり取りを記憶して、使えば使うほ