4. 基本的な使い方

書き起こしを開始する

モコボイスでは、Webブラウザから音声ファイル・動画ファイルの書き起こしを始められます。

操作手順

1. モコボイスにログイン

モコボイスにログインし、左サイドバーから「書き起こし開始」を選びます。

操作画面の例左サイドバーの「書き起こし開始」

↓ここを選びます

書き起こし開始

チーム選択営業チーム

音声・動画アップロード

クリックまたはドラッグ&ドロップ

書き起こしを開始する

2. 音声・動画ファイルをアップロードする

画面中央のアップロードエリアにファイルをドラッグ&ドロップするか、エリアを押してファイル選択画面から選びます。

アップロードが終わると、ファイル名が表示され、内容を再生して確認できます。表示されたファイル名が、書き起こしたい音声・動画と合っているか確認してください。

操作画面の例ファイルのアップロード

書き起こし開始

チーム選択営業チーム

ここを押します↓

音声・動画アップロード

クリックまたはドラッグ&ドロップ

書き起こしを開始する

操作画面の例アップロード後の確認

書き起こし開始

チーム選択営業チーム

音声・動画アップロード

meeting-recording.mp4▶

書き起こしを開始する

3. 詳細設定（任意）

書き起こしを始める前に、必要に応じて以下の項目を設定できます。

詳細設定は、アップロードエリアの下にあります。画面に見えていない場合は、少し下へスクロールしてください。

操作画面の例アップロード画面の下にある詳細設定

書き起こし開始

チーム選択営業チーム

音声・動画アップロード

meeting-recording.mp4▶

オプション詳細設定

タイトル

商談ヒアリング

辞書選択

営業用語辞書

音声に含まれる言語

言語名で検索

日本語

英語

自動検出

書き起こしを開始する

タイトル — 書き起こし結果のタイトルです。未入力の場合は、ファイル名がそのまま使われます。結果画面からあとで変更できます。
辞書選択 — 専門用語や固有名詞の認識精度を上げたい場合は、登録済みの辞書を選びます。
音声に含まれる言語 — 複数の言語が混ざっている音声では、含まれる言語をすべて選びます。初期値は日本語です。未選択の場合は、AIが自動で判定します。対応している言語は対応言語のページをご覧ください。

言語を選ぶ場合は、検索欄で言語名を探し、必要な言語にチェックを入れます。AIに任せる場合は、言語を選ばず「自動検出」の状態にします。

操作画面の例言語を手動で選択する場合

書き起こし開始

チーム選択営業チーム

音声・動画アップロード

meeting-recording.mp4▶

オプション詳細設定

タイトル

商談ヒアリング

辞書選択

営業用語辞書

音声に含まれる言語

言語名で検索

日本語

英語

自動検出

書き起こしを開始する

操作画面の例言語を自動検出にする場合

書き起こし開始

チーム選択営業チーム

音声・動画アップロード

meeting-recording.mp4▶

オプション詳細設定

タイトル

商談ヒアリング

辞書選択

営業用語辞書

音声に含まれる言語

言語名で検索

日本語

英語

自動検出

書き起こしを開始する

4. 書き起こしを実行する

設定が終わったら、「書き起こしを開始する」を押します。

操作画面の例「書き起こしを開始する」ボタン

書き起こし開始

チーム選択営業チーム

音声・動画アップロード

meeting-recording.mp4▶

オプション詳細設定

タイトル

商談ヒアリング

辞書選択

営業用語辞書

音声に含まれる言語

言語名で検索

日本語

英語

自動検出

ここを押します↓

書き起こしを開始する

5. 処理中

アップロードと書き起こしの処理が、順番に進みます。進み具合は「ファイル」（書き起こし履歴）から確認できます。ページを閉じても、処理はそのまま続きます。

6. 結果の確認

完了すると、結果画面に切り替わります。話者ごとに区切られた書き起こしテキストが表示されます。

操作画面の例書き起こし完了後の結果画面

商談ヒアリング

チーム選択営業チーム

書き起こし結果

ダウンロード

00:00話者1本日はお時間をいただきありがとうございます。まず課題をお聞かせください。

00:18話者2議事録作成に時間がかかっているため、書き起こしから要約まで効率化したいです。

00:36話者1承知しました。チームで共有する流れも含めて確認します。

3時間を超える音声ファイルの話者IDについて

モコボイスでは3時間を超える音声ファイルも処理できますが、内部の話者分離処理は 3時間ごと に区切って行われます。そのため、3時間を境に話者IDの割り当てが変わる場合があります。

時間帯	話者ID	実際の人物
0〜3時間	`SPEAKER_00`	Aさん
0〜3時間	`SPEAKER_01`	Bさん
3〜6時間	`SPEAKER_02`	（同じ）Aさん
3〜6時間	`SPEAKER_03`	（同じ）Bさん

3時間を超える区間では、同じ人物が再登場しても別のIDが付くことがあります。書き起こし結果を確認のうえ、必要に応じて同じ人物に同じ名前を割り当てて整理してください（→ 話者名を編集する）。

書き起こし結果から行える操作

結果のダウンロード

書き起こし結果は、画面右下のダウンロードボタンから次の形式で保存できます。

形式	拡張子	説明
Word	`.docx`	一般的な文書作成に適したMicrosoft Word形式
Excel	`.xlsx`	タイムスタンプや話者情報を表形式で整理した形式
Markdown	`.md`	プレーンテキストで軽量な、書式記号付きの形式
Text	`.txt`	シンプルなプレーンテキスト形式
JSON	`.json`	構造化データ。プログラム処理に適した形式

話者名や結果の編集

話者IDが複数に分かれた場合は、同じ人物に同じ名前を割り当てることで、会話の流れが整理しやすくなります。詳しくは話者名を編集するをご覧ください。

議事録の作成

書き起こし結果から、会議やインタビューの議事録を作成できます。詳しくは議事録を作成するをご覧ください。

精度向上のための辞書利用

専門用語や固有名詞の認識精度を上げたい場合は、事前に辞書を登録してご利用ください。詳しくは辞書を使って精度を上げるをご覧ください。