英単語1万語以上の最強csvファイルを作る方法(Anki/PSS用)

英語学習
英単語1万語以上の最強csvファイルを作る方法(Anki/PSS用)

僕が英語学習に重宝しているAnkiやPSS( P-Study System )などで英単語暗記をする際に、一番ネックとなるのが教材の英単語リストの作成です。

学習用となるといくつか要望が出てくるものでしょう。

  • 一万語レベル以上の単語リストが必要
  • 頻度順が良い
  • 発音記号が欲しい
  • しっかりした日本語訳が欲しい
  • 例文が欲しい
  • できれば英英辞典の意味も欲しい
  • 音声が欲しい

これら全ての要望を満たした、csvファイルを作成する方法をまとめました。これで英単語暗記の下準備は完了です。

余計なことにとらわれずにドンドン英単語を覚えちゃってください!

概要の説明

基本的な手順は以下のとおりです。

  1. ベースとなる(頻度順の)英単語リストの取得
  2. 英和辞典や英英辞典の意味をcsvで取得
  3. 2つを結合して、和訳付き英単語リストを生成

それぞれ何種類か方法があるので、自分のレベルや学習目標に合わせて行うと良いでしょう。

またcsvファイルの生成という性質上、一部の方法については、ある程度のITスキルが求められます。自分にできそうな方法を選んでください。

ベースとなる英単語リストを取得

まずは、頻度順かつ沢山の英単語リストを取得して、csvとして保存しておきましょう。和訳などはは後から付けるので、英単語のリストだけで問題ありません。

方法としてはいくつかあり、

などがあります。おすすめは、初心者は英辞郎によるSVL(究極の英単語)の取得、上級者はANC単語頻度準拠_英和辞典からダウンロードすることです。

英辞郎では、レベル別にSVLを出力できますし、例文や発音記号も付いているので、1万2千語レベルまではこれに決定して良いと思います。

ANCの単語に関しては、既に簡単な和訳も付いているので、例文などがなくても問題が無ければこれらをダウンロードしてAnkiに入れてしまっても大丈夫です。

最後の、インターネットアーカイブからのアルク公式サイトをコピペする方法ですが、あまりおすすめできません。

アルク公式サイトでは、以前はテキストベースでSVL12000語の掲載をしていたのですが、コピペなどを防止するために画像データに差し替えてしまいました。

アーカイブでは、保存してあった以前のサイトを見ることができるのですが、そこから英単語リストを取得することはアルクの意図に反しているので、あまりよろしくないでしょう。

ANC頻出3万語のリストをダウンロード

ジャムシステムズという会社が、30万もの英単語を載せたANCの頻度順英単語リストを解析して、3万語のリストを掲載してくれています。

ANC単語頻度準拠_英和辞典

これだけでも、十分Ankiの使用に事足ります。そこまで手間暇をかけたくない場合は、これで終了にしても良いでしょう。

しかし、ANCのデータだけでは日本語訳に不安が残ると思う方や、例文を付けたい方がいるかと思います。

その場合は、あとで解説する辞書データのcsvをマージする方法を参考にしてください。

辞典の意味をcsvで取得

英単語と和訳や例文の情報を並べたcsvファイルを辞書から手に入れましょう。あとで英単語リストと紐付けます。

方法は主に3つです。

  • 英辞郎/学辞郎から出力する
  • E-DIC(第二版)から出力する
  • コウビルド英英辞典から出力する

注意点としては、どれも中古で手に入れる必要があるということです。学辞郎などは現在入手が難しくなっています。

ちなみにですが、作ったファイルをエクセルなどで起動すれば、ctrl+fなどで辞書代わりに使うこともできます。

これらの辞書から得られたデータは個人使用にとどめ、二次配布などはしないようにしてください。

英辞郎/学辞郎から全辞書データを読み出す

英辞郎や学辞郎から全辞書データを読み出して、csvファイルを作りましょう。

まずは英辞郎か学辞郎をamazonやメルカリなどで手に入れてください。

注意して欲しいのですが、英辞郎は第8版まででないとCSV出力ができません。中古で手に入れるしか方法がないので、買おうとしているものが何版なのか確認するようにしてください。

英辞郎でCSV出力ができるのは第8版まで

英辞郎のインストールと起動

入手ができたら、説明書の手順に沿って英辞郎をインストールし、起動してください。

英辞郎の起動画面

Searchから全文検索

次に、[Search]->[全文検索]を押して、検索画面を表示しましょう。

Searchから全文検索を押す

検索対象の設定

以下のように設定しましょう。

  • 検索対象:2 見出し語
  • 検索文字列:[半角空白]を含まない かつ [“]を含まない

*実際に打つのは「半角空白」ではなく、「 」です。

全文検索画面

検索対象辞書の設定

次に、「検索対象辞書(D)…」を押して、辞書の設定画面を開きましょう。
英辞郎の辞書である「EIJI-136.dic」にだけチエックをつけてください。

辞書選択

詳細設定で出力の設定

「詳細設定(V)…」を押して、出力形式などの設定画面を開いてください。設定は以下の通りです。

  • 検索結果の出力先:ファイルへ
  • 出力先ファイル名:[付けたい名前].csv
  • 出力形式:ユーザー定義形式
  • ユーザー定義形式:6~9のうち、まだ使ったことのないもの
出力先の設定

ユーザー定義の編集

先程の画面の、ユーザー定義の下にある「編集」ボタンを押して、ユーザー定義を設定しましょう。以下のものをコピペしてください。

$w\t&N($j,<br>)
ユーザー定義の設定

出力結果待ち

これで全ての設定は終了です。OKを全て押して、csvが出力されるのを待ってください。単語の量が多いので、少し時間がかかります。

全て終わったら、英辞郎のソフト用の「Pdic」というフォルダを開いてみましょう。csvが出力されているはずです。

出力先フォルダ

この方法で出力した場合、csvファイルの文字コードがUTF-16になっている場合があります。文字化けしてしまうかも知れないので、その場合はエクセルで開いてから「CSV UTF-8(コンマ区切り)(.csv)」というファイル形式で、名前をつけて保存するようにしてください。

E-DIC(第二版)から辞書データを解析する

E-DICの英和辞典には例文は載っていないのですが、意味が英辞郎よりもスッキリしているので、暗記には適しているかもしれません。

E-DICのソフトを解析して、CSVファイルを出力するプログラムを作ってくれた方がいます。感謝して使いましょう。

E-DICには、「アメリカ口語辞典」「英和イディオム完全対訳辞典」「動詞を使いこなすための英和活用辞典」などの素晴らしい辞典もあります。
単語暗記が一段落したら暗記に挑戦してみると良いでしょう。

注意して欲しいのですが、CD版のE-DICが古いOSでしか動かなくなっています。

OS:日本語版Windows 2000 (Service Pack 4)、Windows XP (Service Pack 2以上)、Windows Vista、Windows 7(いずれも32ビット版。
「64ビット版OS 対応ファイル」は朝日出版社HPで無料配布中)

amazon E-DIC 英和|和英 (イーディック) 第2版 

ダウンロード版なら新しいOSでも動くようですが、CSV変換のプログラムがうまく動作するかは未検証です。

コウビルド英英辞典から出力する

コウビルド英英辞典から、単語ごとの英英辞典の意味と音声データを抽出することができます。すでにそのプログラムを作成された方がいるので、以下のサイトを参考にすると良いでしょう。
COBUILD 英英辞典(第5版)の問題集化とネイティブ音声の導入方法

Ankiなどで学習する際は、音声データは機械音声をつけるか、ネット上から取得することも可能です。しかし、まだまだ完全な音声でなかったり、取得に時間がかかったりなどするので、コウビルドから抽出できれば嬉しいですね。

(僕は第4版でやったのですが、すべての単語が抽出できないバグがあるのか一部の単語のデータを取得することができませんでした。)

英単語リストにCSVデータをマージ

和訳や英英辞典の情報を抜き出せたら、最初に手に入れた英単語リストに紐付けをしましょう。

データを紐付けするための手順

  • 英単語リストをエクセルにコピペ
  • 辞書データを別のシートに書き出す
  • エクセルの関数を使って2つを紐付ける

となります。

*大文字と小文字を区別して紐付けるので、英単語リストや辞書データの量が多いと時間がかかってしまうことがあります。

英単語リストをエクセルにコピペ

例としてANC単語頻度準拠_英和辞典からダウンロードしてきたとして解説します。

必要な情報をコピーして新しいエクセルに貼り付けましょう。

絶対必要なのが「見出し語」で、頻度順に覚えるなら「順位」、後で紐付ける辞書データだけでは不安な場合は「Short(簡単な和訳)」や「解説」もコピーしてください。

ANC単語頻度準拠_英和辞典

辞書データを別シートに読み込み

抽出してきた辞書データを別シートに読み込みましょう。今回は例として、英辞郎から抽出したデータを使用しましょう。

まずは下にある「+」ボタンを押して新しいシートを作成し、シート名を「eiji_all」などとわかるようにしておいてください。そうしたら、以下の手順で辞書データをインポートできます。

  1. [データ]タブにある[テキストファイル]をクリックして、抽出した英辞郎のcsvファイルを選択
  2. テキストファイルウィザードが出たら、
    区切り記号付きを選択→区切り文字を「カンマ」にして完了
[タブ]→[テキストファイル]を選択
テキストファイルウィザード

関数を使って紐付け(時間がかかる)

いよいよデータの紐付けです。ANCの英単語と一致するものを、英辞郎のシート(eiji_all)のA列にある単語から探して、B列にある意味を取り出してきます。

以下の関数を、新しい列の二行目にコピペして実行してください。Macの場合は関数内で配列を使用する際に、Ctrl + Shift + Enter キーを押して実行しないと「#N/A」となってしまうので注意しましょう。

=INDEX(eiji_all!B:B, MATCH(TRUE,EXACT(A2,eiji_all!A:A),0),1)

これで1つ目の単語の意味は取得できました。このセルの右下にある四角をダブルクリックする(カーソルを合わせて十字に変わったところでダブルクリックをする)ことで、全単語に対して数式をコピーしてくれます!

数式のコピー

シートを保存する

あとは出来上がったシートをCSVとして保存するだけです。

保存する際は、ファイルの種類をCSV(カンマ区切りで保存)またはTSV(タブ区切りで保存)に指定するようにしましょう。

一つのシートしか保存できないので、できたシートを開いた状態で保存するようにしてください。

(番外) 辞書から出力したcsvファイルがエクセルで文字化けする時

エクセルはCSVファイルを開く時に、文字コードがShift-JISだと思ってファイルを開いてしまうので、もし出力したCSVファイルの文字コードがUTF-8などの場合は文字化けしてしまいます。

対応策としては、文字コードを指定してCSVファイルをエクセルで読み込めば大丈夫です。

詳しいことはこちらなどを参考にしてください。

(番外) 発音記号をつける

発音記号にも種類があるのですが、日本で普通に使われているジョーンズ式発音記号を付けることもできます。

英語(英文)→(発音記号またはカタカナ)変換フォーム」で、発音記号を付けたい英単語リストをコピペして変換しましょう。

1万語の単語を一気に変換することはできないので、複数に分けて手作業でチマチマと変換することになりますが、発音記号をリストにつけることができます。

(番外) 更に複雑な処理

エクセルを使った場合の処理は、複雑なことをしようとすると関数が難しくなってしまったり、実行が遅かったりなどの弊害があります。

そこで、プログラミング言語Pythonなどを利用することで、CSVデータに対して高速に様々な処理を行うことができます。

別途プログラミングの学習が必要なのでここでは詳しくは述べませんが、こんなことができるのだという例だけ簡単に示したいと思います。

Webサイトから単語の意味データを取得する

weblioなどの英単語の意味を掲載しているサイトをクローリング・スクレイピングすることで、単語の意味を取得してくることができます。

英辞郎などの辞書データがなくても意味が取得できるというメリットはありますが、クローリングに時間がかかりすぎてしまうというデメリットがあります(高速にアクセスするとサイトへの「攻撃」になってしまうので、1ページにつき1秒ほど待つのがスタンダードになっています)。

SVLとの重複を取り除く

既にSVLの英単語をすべて覚えていて、SVLよりも高レベルの英単語を学習する際に、重複して学習をするのは面倒です。英辞郎からは、SVL12000語が出力できるので、このリストを使って、重複する英単語を取り除くことも可能でしょう。

これはエクセルを使いこなせばできることですが、プログラミング言語を使えばさらに高速に行うことができます。

類義語・反意語などをつける

Wordnetと呼ばれる英語の辞書やシソーラスを組み合わせたようなデータベースがあります。これを使うことで、類義語や反意語のデータを取得することができます。

欠点は品詞がわからないと違う品詞の類義語・反意語を取得してしまう可能性があることですが、コウビルドから抽出したデータには品詞のデータも入っているので、うまくやれば対応も可能でしょう。

また、ネット上の辞書から類義語や反意語をとってくることも可能でしょう。

コメント・質問

タイトルとURLをコピーしました