👩‍💻

言語処理100本ノック 2020 (Rev 2) 第2章: UNIXコマンド 17. 1列目の文字列の異なり

2023/01/08に公開約800字

問題

17. 1列目の文字列の異なり

1列目の文字列の種類(異なる文字列の集合)を求めよ.確認にはcut, sort, uniqコマンドを用いよ.

solution17.py
import pandas as pd

df = pd.read_csv('chapter02/popular-names.txt', sep='\t', header=None)
ans = list(set(df.iloc[:,0]))
print(sorted(ans))
output
['Abigail', 'Aiden', 'Alexander', 'Alexis', 'Alice', #以下に続きます
solution17.sh
cut -f 1  popular-names.txt | sort | uniq
output
Abigail
Aiden
Alexander
Alexis
Alice
#以下に続きます

この問題では、set()を使用します。set型は重複した要素をもたないデータ型で、set()にリストなどを渡すと、重複する値は無視されて一意な値のみが要素となるset型のオブジェクトを返します。

https://github.com/kurokawa5/nlp100_2020/blob/main/chapter02/solution17.py

参考記事

第2章: UNIXコマンド
Pythonでリスト(配列)から重複した要素を削除・抽出
uniq コマンドと集合演算

Discussion

ログインするとコメントできます