Closed27
英語データセット・APIとか
-
https://github.com/NaturalNode/natural/blob/master/lib/natural/wordnet/wordnet.js
- データセットの読み解き方が不明。↑らへんがヒントになるかも
- index -> alphabetized list of all the words アルファベット順
- data -> A data file for a syntactic category contains information corresponding 単語のまとまり・関係性みたいなこと?offsetに対応してると考えて良いのか?
- index.offset -> synset_offset Byte offset in data.pos
- index.offsetDataは常に空配列?
-
https://github.com/open-language/en-dictionary/blob/e68575e6d9896fdbb70cde6d435531082203e3af/src/parser/index.line.ts#L45
- index.pointer.offsetも常に0。これは更新してる箇所とかも無さそう
en-dictionay
- 1系だとデータが上書きされてverbしか取れないバグがある
- 2系はまだ非公開で、githubから取ってきてTSでグリグリするしかない
-
https://www.npmjs.com/package/@terrierscript/wordnet-dictionary
どうも使いづらいので自前パッケージ化した
-
https://stackoverflow.com/questions/2213607/how-to-get-english-language-word-database
/usr/share/dict/words
wordnet系
-
https://github.com/globalwordnet/english-wordnet
- yml化されてて使いやすそうかもしれない
- https://en-word.net
こちらの場合、synsetに語句が含まれてない。lexicalEntries.Senseを格納してあげる必要がある
こんな構造になってそう(点線は存在しないが実質存在するもの)
lexicalEntryからsense / synsetの繋がりにクセがある
- en-word.netのDerriver Fromとは?
- おそらくderivationのrelationの逆引きを含めたものっぽい
- delivationで循環がカバーされているものとされてないものがあるっぽい
-
https://github.com/globalwordnet/english-wordnet/issues/33
- frequency(頻度)については却下されてそう。元データ探ればあるかも?
「学術的なデータとしては順序はランダムと見なしたほうが妥当」というのちょっとおもしろい
このスクラップは2021/04/18にクローズされました