openai/whisperPython60.0k

WhisperはOpenAIが開発した高精度な音声認識モデルです。多言語対応で、日本語を含む99言語の音声をテキストに変換できます。ノイズの多い環境でも安定した認識精度を発揮し、文字起こし作業の自動化に適しています。

ユースケース: 音声の文字起こし自動化

  • 多言語対応
  • 高精度
  • オープンソース
GitHubで見る →

Robust Speech Recognition via Large-Scale Weak Supervision

関連リポジトリ

AIエージェントに「スキル」を装備させよう!Codex用スキルカタログ — skills

openai/skillsPython13.5k

openai/skillsは、OpenAIのコーディングAIエージェント「Codex」に特定の作業能力を追加するための「スキル」を集めたカタログです。スキルとは、指示書・スクリプト・リソースをまとめた

LLMアプリのレシピ集!ChatGPTから音声エージェントまで実例満載 — awesome-llm-apps

Shubhamsaboo/awesome-llm-appsPython99.0k

awesome-llm-appsは、ChatGPTやGeminiなどの大規模言語モデル(AIの文章生成技術)を使った実用的なアプリケーションの作り方を集めたレシピ集です。AIエージェント(自動でタスク

PDF・Word・Excel・画像…あらゆるファイルをMarkdownに一発変換!AI時代の必携ツール — markitdown

microsoft/markitdownPython89.9k

MarkItDownは、PDF、Word、Excel、PowerPoint、画像、音声、HTMLなど、さまざまなファイル形式をMarkdown(シンプルな書式付きテキスト)に変換するPython製のツ

写真1枚でリアルタイム顔すり替え!ワンクリックで誰にでもなれるAIディープフェイク — Deep-Live-Cam

hacksider/Deep-Live-CamPython86.8k

Deep-Live-Camは、たった1枚の顔写真を用意するだけで、リアルタイムにウェブカメラの映像や動画の顔を別人の顔に置き換えられるAIツールです。ビデオ通話やライブ配信中に、まるで別人になったかの

AIに「このサイトで○○して」と頼むだけ!ブラウザ操作を全自動化するエージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自